Scrapy抓取京东商品、豆瓣电影及代码分享

2020-02-16 10:49:09

字体：大中小

来源：转载

供稿：网友

　1.scrapy基本了解

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的,也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫。

　　Scrapy也能帮你实现高阶的爬虫框架，比如爬取时的网站认证、内容的分析处理、重复抓取、分布式爬取等等很复杂的事。

Scrapy主要包括了以下组件：

引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。调度中间件(Scheduler Middewares): 介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

　　Scrapy运行流程大概如下：
1.首先，引擎从调度器中取出一个链接(URL)用于接下来的抓取

2.引擎把URL封装成一个请求(Request)传给下载器，下载器把资源下载下来，并封装成应答包(Response)

3.然后，爬虫解析Response

4.若是解析出实体（Item）,则交给实体管道进行进一步的处理。

5.若是解析出的是链接（URL）,则把URL交给Scheduler等待抓取

　　2.安装scrapy

    　　虚拟环境安装：
    sudo pip install virtualenv #安装虚拟环境工具
    virtualenv ENV #创建一个虚拟环境目录
    source ./ENV/bin/active #激活虚拟环境
    pip install Scrapy #验证是否安装成功
    pip list #验证安装

可以如下测试：

scrapy bench








上一篇：解决python3中自定义wsgi函数,make_server函数报错的问题


下一篇：Python实现桶排序与快速排序算法结合应用示例














发表评论
共有条评论






用户名:

密码:



验证码:

 

匿名发表


















学习交流
更多





微软20日启动最严厉反盗版验证


罗技g502鼠标灵敏度怎么设置?






如何重启打印机打印服务
如何重启打印机打印服务...






快剪辑自带水印可以消除，只需简单设置12-24

飞鸽传书好友列表显示异常？或许是这两个原因12-24

下载网页中视频的方法~~12-24

教你用拼音打出来不认识的字~~12-24




服务器故障鉴别及排除的方法01-30

Windows 2003中IIS 6.0应用程序池回收和工01-30

服务器硬件知识01-30

WIN2003下Web服务器配置01-30

帝国灵动标签调用字数的控制09-08







热门图片
更多




校园甜美的背影，洋溢着青春烂漫的回忆


芭蕾舞蹈表演，真实美到极致




春节临近，各地春节彩灯高高挂


冬日黄山云海与晚霞相映成辉




肉食主义者的最爱美食烤肉图片


夏日甜心草莓美食图片




人逢知己千杯少，喝酒搞笑图集


搞笑试卷，学生恶搞答题







猜你喜欢的新闻


明兮大语文创始人王嘉树：由于资金困难，公司停

明兮语文停止运营 发展资金链断裂

2006年李俊编写了“熊猫烧香”电脑病毒，现在

谷歌合并Alphabet旗下子公司Jigsaw，未来会如

暴风公司：将与风行在线在互联网视听服务领域

NASA说今天地球引力最小能让扫帚立起来？原因

TCL集团宣布今日起正式更名为“TCL科技”

黑莓曲终落，情怀价几何？

HTC官方社区将于明日(2月7日)正式关闭

小米年会爆笑神曲《咋了开发》





猜你喜欢的关注


python SSH模块登录，远程机执行shell命令实

使用python编写简单的小程序编译成exe跑在w

python+matplotlib绘制旋转椭圆实例代码

python逆向入门教程

使用C++扩展Python的功能详解

Python数字图像处理之霍夫线变换实现详解

Python3一行代码实现图片文字识别的示例

聊聊Python中的pypy

Python实现霍夫圆和椭圆变换代码详解

Python编程二分法实现冒泡算法+快速排序代