Python网页爬虫

2019-11-14 16:59:09

字体：大中小

来源：转载

供稿：网友

解决问题：获取网页上的内容。特别是加载主框架后，再用Ajax获取数据生成内容的网页。

PyQuery：可以像jQuery的py实现。你给他一个PyQuery一个HTML，他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。

Ghost.py:一个封装Webkit（浏览器核心）的类库。就是模拟浏览器访问网页。

安装类库

pip install PyQuery

pip install PySide

pip install Ghost.py

from ghost import Ghostfrom pyquery import PyQuery as pq

g=Ghost()session=g.start()session.open('http://www.163.com' ,wait=None)session.wait_for_page_loaded()

doc=pq(session.content)

这样 doc 就可以当作$用了

学习交流

索泰发布一款GTX 1070 Mini迷你版本:小机

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

2019-10-23 09:17:05

2019-10-21 09:20:02

2019-10-21 09:00:12

2019-09-26 08:57:12

2019-09-25 08:46:36

2019-09-25 08:15:43

疑难解答

图片精选

网友关注