python爬虫学习整理——爬虫入门(1)

2018-02-27 11:35:26来源:oschina作者:十年磨一剑3344人点击

分享

1.学习准备

python基础知识,学习到面向对象,掌握基本的编程原理。
bs4的安装和使用
requests的安装和使用
http协议的基本原理
urllib,urllib2使用
html网页分布、css基础知识

2.使用的软件

因我是在Linux系统中学习的,所以安装了vm虚拟机并且使用了centos6.5系统。
使用的vim软件编写程序
使用的是python2.7 IDE

3.网络知识整理


url

概念:统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
组成:基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名

第一部分——模式/协议(scheme):它告诉浏览器如何处理将要打开的文件。最常用的模式是超文本传输协议(Hypertext Transfer Protocol,缩写为HTTP),这个协议可以用来访问网络。


其他协议如下(这些协议都可以当作url中的第一个部分):

http——超文本传输协议资源
https——用安全套接字层传送的超文本传输协议
ftp——文件传输协议
mailto——电子邮件地址
ldap——轻型目录访问协议搜索
file——当地电脑或网上分享的文件
news——Usenet新闻组
gopher——Gopher协议
telnet——Telnet协议

第二部分

文件所在的服务器的名称或IP地址,后面是到达这个文件的路径和文件本身的名称。
服务器的名称或IP地址后面有时还跟一个冒号和一个端口号。
它也可以包含接触服务器必须的用户名称和密码。

第三部分


路径部分包含等级结构的路径定义,一般来说不同部分之间以斜线(/)分隔。询问部分一般用来传送对服务器上的数据库进行动态询问时所需要的参数。


最新文章

123

最新摄影

闪念基因

微信扫一扫

第七城市微信公众平台