1.scrapy基本了解
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的,也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫。
Scrapy也能帮你实现高阶的爬虫框架,比如爬取时的网站认证、内容的分析处理、重复抓取、分布式爬取等等很复杂的事。
Scrapy主要包括了以下组件:
Scrapy运行流程大概如下:
1.首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
2.引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
3.然后,爬虫解析Response
4.若是解析出实体(Item),则交给实体管道进行进一步的处理。
5.若是解析出的是链接(URL),则把URL交给Scheduler等待抓取
2.安装scrapy
虚拟环境安装:
sudo pip install virtualenv #安装虚拟环境工具
virtualenv ENV #创建一个虚拟环境目录
source ./ENV/bin/active #激活虚拟环境
pip install Scrapy #验证是否安装成功
pip list #验证安装
可以如下测试:
scrapy bench
新闻热点
疑难解答