python写爬虫2-数据抓取的三种方式

2019-11-09 19:49:49

字体：大中小

来源：转载

供稿：网友

常用抽取网页数据的方式有三种：正则表达式、Beautiful Soup、lxml

1.正则表达式

正则表达式有个很大的缺点是难以构造、可读性差、不易适用未来网页的变化。写一段伪代码：

import reurl = 'http://xxxx.com/sdffs'html = download(url)re.findall('正则表达式', html)

这是一个非常流行的python模块。安装命令如下：

pip install beautifulsoup4

使用此模块的第一步是将已下载的html内容解析为soup文档。因许多html网页格式不规范，Beautiful Soup可对其进行确定，将其调整为规范的html文件。这里写图片描述

Lxml是基于libxml2这一XML解析库的python封装。该模块使用c语言编写，解析速度比Beautiful Soup更快。安装命令如下：

pip install lxmlpip install CSSselect

如下代码，从html中获取class=country的ul标签下，li标签id=a的文本，获取li标签class=b的文本这里写图片描述

通常，lxml是抓取数据最好的选择，因为该方法既快速又健壮，而正则和Beautiful Soup只在某些特定场景下用。

学习交流

索泰发布一款GTX 1070 Mini迷你版本:小机

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

2019-10-23 09:17:05

2019-10-21 09:20:02

2019-10-21 09:00:12

2019-09-26 08:57:12

2019-09-25 08:46:36

2019-09-25 08:15:43

疑难解答

图片精选

网友关注