首页 > 学院 > 开发设计 > 正文

scrapy spider 一些设置属性说明

2019-11-08 03:24:27
字体:
来源:转载
供稿:网友

settings.py

DOWNLOAD_TIMEOUT = 10 # 下载超时时间HTTPERROR_ALLOWED_CODES = [403, 502, 503, 404] # 这个设置项,可以在中间调试器中间能访问到这些code码,如果不设置这些的话,是不是访问到的RETRY_TIMES = 5 #重复执行5次RETRY_HTTP_CODES = [500, 502, 503, 504, 400, 403, 404, 408] #出现这些错误码会重复执行的DOWNLOAD_DELAY = 3 时间间隔

spider文件下设置

1. PRiority=9,# 这个设置是下载url优先级(数子大优先权大)如:yield scrapy.Request( url=url_citation, meta={ 'sql': retSql }, callback=self.GetCitation, priority=9, ) 2. 设置某个spider单独使用的设置项等等。 custom_settings = { 'DOWNLOAD_DELAY': 0.2, 'CONCURRENT_REQUESTS_PER_ip': 4, 'DOWNLOADER_MIDDLEWARES': {}, }
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表