首页 > 学院 > 开发设计 > 正文

Python网页爬虫

2019-11-14 16:59:09
字体:
来源:转载
供稿:网友

解决问题:获取网页上的内容。特别是加载主框架后,再用Ajax获取数据生成内容的网页。

PyQuery:可以像jQuery的py实现。你给他一个PyQuery一个HTML,他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。

Ghost.py:一个封装Webkit(浏览器核心)的类库。就是模拟浏览器访问网页。

安装类库

pip install PyQuery

pip install PySide

pip install Ghost.py

from ghost import Ghostfrom pyquery import PyQuery as pq

 

g=Ghost()session=g.start()session.open('http://www.163.com' ,wait=None)session.wait_for_page_loaded()
doc=pq(session.content)

这样 doc 就可以当作$用了


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表