首页 > 编程 > Python > 正文

Python3爬虫学习之将爬取的信息保存到本地的方法详解

2020-02-16 00:04:45
字体:
来源:转载
供稿:网友

本文实例讲述了Python3爬虫学习之将爬取的信息保存到本地的方法。分享给大家供大家参考,具体如下:

将爬取的信息存储到本地

之前我们都是将爬取的数据直接打印到了控制台上,这样显然不利于我们对数据的分析利用,也不利于保存,所以现在就来看一下如何将爬取的数据存储到本地硬盘。

1 对.txt文件的操作

读写文件是最常见的操作之一,python3 内置了读写文件的函数:open

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None))
Open file and return a corresponding  file object. If the file cannot be opened, an OSError
 is raised.

其中比较常用的参数为file和mode,参数file为文件的路径,参数mode为操作文件的方式(读/写),函数的返回值为一个file对象,如果文件操作出现异常的话,则会抛出 一个OSError

还以简书首页文章题目为例,将爬取到的文章标题存放到一个.txt文件中,具体代码如下:

# -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupurl = r'http://www.jianshu.com'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}page = request.Request(url, headers=headers)page_info = request.urlopen(page).read().decode('utf-8')soup = BeautifulSoup(page_info, 'html.parser')titles = soup.find_all('a', 'title')try:  # 在E盘以只写的方式打开/创建一个名为 titles 的txt文件  file = open(r'E:/titles.txt', 'w')  for title in titles:  # 将爬去到的文章题目写入txt中    file.write(title.string + '/n')finally:  if file:    # 关闭文件(很重要)    file.close()

open中mode参数的含义见下表:

符号 含义
r' 以只读模式打开文件(默认模式)
w' 以只写的方式打开文件,如果文件存在的话会先删除再重新创建
x' 以独占的方式打开文件,如果文件已经存在则错误
a' 以写的形式打开文件,若文件已存在,则以追加的方式写入
b' 二进制模式
t' 文本模式(默认)
+' 更新文件(读/写)

其中't'为默认模式,'r'相当于'rt',符号可以叠加使用,像'r+b'

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表