首页 > 编程 > Python > 正文

Python爬虫中urllib库的进阶学习

2020-02-16 11:30:37

字体：大中小

来源：转载

供稿：网友

urllib的基本用法

urllib库的基本组成

利用最简单的urlopen方法爬取网页html

利用Request方法构建headers模拟浏览器操作

error的异常操作

urllib库除了以上基础的用法外，还有很多高级的功能，可以更加灵活的适用在爬虫应用中，比如：

使用HTTP的POST请求方法向服务器提交数据实现用户登录

使用代理IP解决防止反爬

设置超时提高爬虫效率

解析URL的方法

本次将会对这些内容进行详细的分析和讲解。

POST请求

POST是HTTP协议的请求方法之一，也是比较常用到的一种方法，用于向服务器提交数据。博主先介绍进行post请求的一些准备工作，然后举一个例子，对其使用以及更深层概念进行详细的的剖析。

POST请求的准备工作

既然要提交信息给服务器，我们就需要知道信息往哪填，填什么，填写格式是什么？带这些问题，我们往下看。

同样提交用户登录信息（用户名和密码），不同网站可能需要的东西不一样，比如淘宝反爬机制较复杂，会有其它一大串的额外信息。这里，我们以豆瓣为例（相对简单），目标是弄清楚POST是如何使用的，复杂内容会在后续实战部分与大家继续分享。

抛出上面像淘宝一样需要的复杂信息，如果仅考虑用户名和密码的话，我们的准备工作其实就是要弄明白用户名和密码标签的属性name是什么，以下两种方法可以实现。

浏览器F12查看element获取

也可以通过抓包工具Fiddler获取。

废话不多说了，让我们看看到底如何找到name？

1. 浏览器F12

通过浏览器F12元素逐层查看到（我是用的Chrome），邮箱/手机号标签的name="form_email", 密码的标签name="form_email"，如下图红框所示。

但要说明的是，两个标签的name名称并不是固定的，上面查看的name名称只是豆瓣网站定义的，不代表所有。其它的网站可能有会有不同的名称，比如name="username", name="password"之类的。因此，针对不同网站的登录，需要每次查看name是什么。

2. 通过fiddler抓包工具

博主推荐使用fiddler工具，非常好用。爬虫本身就是模拟浏览器工作，我们只需要知道浏览器是怎么工作的就可以了。

fiddler会帮助我们抓取浏览器POST请求的所有内容，这样我们得到了浏览器POST的信息，把它填到爬虫程序里模拟浏览器操作就OK了。另外，也可以通过fiddler抓到浏览器请求的headers，非常方便。

安装fiddler的小伙伴们注意：fiddler证书问题的坑（无法抓取HTTPs包），可以通过Tools —> Options —>HTTPS里面打勾Decrypt HTTPS traffic修改证书来解决。否则会一直显示抓取 Tunnel 信息包...

上一篇：5款非常棒的Python工具

下一篇：微信跳一跳自动运行python脚本

学习交流

如何重启打印机打印服务

如何重启打印机打印服务...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

明兮语文停止运营发展资金链断裂

2020-02-16 09:52:44

2006年李俊编写了“熊猫烧香”电脑病毒，现在过得怎么样？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未来会如何发展？

2020-02-11 22:02:38

NASA说今天地球引力最小能让扫帚立起来？原因很简单

2020-02-11 21:45:12

TCL集团宣布今日起正式更名为“TCL科技”

2020-02-07 10:36:18

黑莓曲终落，情怀价几何？

2020-02-06 12:16:44

疑难解答

图片精选

网友关注