首页 > 编程 > Python > 正文

Python构建网页爬虫原理分析

2020-02-16 11:09:43

字体：大中小

来源：转载

供稿：网友

既然本篇文章说到的是Python构建网页爬虫原理分析，那么小编先给大家看一下Python中关于爬虫的精选文章：

python实现简单爬虫功能的示例

python爬虫实战之最简单的网页爬虫教程

网络爬虫是当今最常用的系统之一。最流行的例子是 Google 使用爬虫从所有网站收集信息。除了搜索引擎之外，新闻网站还需要爬虫来聚合数据源。看来，只要你想聚合大量的信息，你可以考虑使用爬虫。

建立一个网络爬虫有很多因素，特别是当你想扩展系统时。这就是为什么这已经成为最流行的系统设计面试问题之一。在这篇文章中，我们将讨论从基本爬虫到大型爬虫的主题，并讨论在面试中可能会遇到的各种问题。

1 - 基本解决方案

如何建立一个基本的网络爬虫？

在系统设计面试之前，我们已经在《系统设计面试之前需要知道的八件事》中谈到，就是从简单的东西开始。让我们专注于构建在单线程上运行的基本网页爬虫。有了这个简单的解决方案，我们可以继续优化。

要抓取单个网页，我们只需要向相应的 URL 发出 HTTP GET 请求，并解析响应数据，这是抓取工具的核心。考虑到这一点，一个基本的网络爬虫可以这样工作：

以包含我们要抓取的所有网站的网址池开始。

对于每个 URL，发出 HTTP GET 请求来获取网页内容。

解析内容（通常为 HTML）并提取我们想要抓取的潜在网址。

添加新的网址到池中，并不断抓取。

这取决于具体问题，有时我们可能会有一个独立的系统来生成抓取网址。例如，一个程序可以不断监听 RSS 订阅，并且对于每个新文章，都可以将该 URL 添加到爬取池中。

2 - 规模问题

众所周知，任何系统在扩展后都会面临一系列问题。在网络爬虫中，将系统扩展到多台机器时，有很多东西可能出错。

在跳转到下一节之前，请花几分钟的时间思考一下分布式网络爬虫的瓶颈，以及如何解决这个问题。在这篇文章的其余部分，我们将讨论解决方案的几个主要问题。

3 - 抓取频率

你多久爬一次网站？

这听起来可能不是什么大事，除非系统达到一定的规模，而且你需要非常新鲜的内容。例如，如果你想要获取上一小时的最新消息，则抓取工具可能需要每隔一小时不断抓取新闻网站。但是这有什么问题呢？

对于一些小型网站，他们的服务器很可能无法处理这种频繁的请求。一种方法是遵循每个站点的robot.txt。对于不知道robot.txt是什么的人，这基本是网站与网络爬虫交流的标准。它可以指定不应该抓取什么文件，大多数网络爬虫都遵循配置。另外，你可以为不同的网站设置不同的抓取频率。通常，每天只有几个网站需要被多次抓取。

上一篇：Python字符串拼接六种方法介绍

下一篇：Python方法的延迟加载的示例代码

学习交流

如何重启打印机打印服务

如何重启打印机打印服务...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

明兮语文停止运营发展资金链断裂

2020-02-16 09:52:44

2006年李俊编写了“熊猫烧香”电脑病毒，现在过得怎么样？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未来会如何发展？

2020-02-11 22:02:38

NASA说今天地球引力最小能让扫帚立起来？原因很简单

2020-02-11 21:45:12

TCL集团宣布今日起正式更名为“TCL科技”

2020-02-07 10:36:18

黑莓曲终落，情怀价几何？

2020-02-06 12:16:44

疑难解答

图片精选

网友关注