Python3爬虫学习之将爬取的信息保存到本地的方法详解

2020-02-16 00:04:45

字体：大中小

来源：转载

供稿：网友

本文实例讲述了Python3爬虫学习之将爬取的信息保存到本地的方法。分享给大家供大家参考，具体如下：

将爬取的信息存储到本地

之前我们都是将爬取的数据直接打印到了控制台上，这样显然不利于我们对数据的分析利用，也不利于保存，所以现在就来看一下如何将爬取的数据存储到本地硬盘。

1 对.txt文件的操作

读写文件是最常见的操作之一，python3 内置了读写文件的函数：open

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None))
Open file and return a corresponding file object. If the file cannot be opened, an OSError
is raised.

其中比较常用的参数为file和mode，参数file为文件的路径，参数mode为操作文件的方式（读/写），函数的返回值为一个file对象，如果文件操作出现异常的话，则会抛出一个OSError

还以简书首页文章题目为例，将爬取到的文章标题存放到一个.txt文件中，具体代码如下：

# -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupurl = r'http://www.jianshu.com'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}page = request.Request(url, headers=headers)page_info = request.urlopen(page).read().decode('utf-8')soup = BeautifulSoup(page_info, 'html.parser')titles = soup.find_all('a', 'title')try:  # 在E盘以只写的方式打开/创建一个名为 titles 的txt文件  file = open(r'E:/titles.txt', 'w')  for title in titles:  # 将爬去到的文章题目写入txt中    file.write(title.string + '/n')finally:  if file:    # 关闭文件（很重要）    file.close()

open中mode参数的含义见下表：

符号	含义
r'	以只读模式打开文件（默认模式）
w'	以只写的方式打开文件，如果文件存在的话会先删除再重新创建
x'	以独占的方式打开文件，如果文件已经存在则错误
a'	以写的形式打开文件，若文件已存在，则以追加的方式写入
b'	二进制模式
t'	文本模式（默认）
+'	更新文件（读/写）