http://www.kuqin.com/shuoit/20150424/345877.html 继续从酷勤网上学习相关python爬虫。 这次的代码是面向百度贴吧的爬虫
学习的过程中遇到的些许问题: 1.按照顺序逐渐添加代码的过程中,由于第一段代码的getPage()方法返回的是response,所以在后面添加代码的时候 page=self.getPage(1) ………… result=re.search(pattern,page) 会报错 原因是由于,self.getPage(1)在之前的方法里返回的结果是response,正确应该返回response.read()或者 page=self.getPage(1).read()方能运行成功 2.result.group(1) 这里的group(1)是输出匹配的第一个内容,假如是group(0)则是输出所以匹配字段。 3.尝试从其他文件导入tool.py,发现用import tool 会出现找不到tool里的变量问题,而用from tool import *则没这种问题。ps.加入要从其他文件夹里引用文件,则需要在对应文件夹中加入_ inti _.py的文件。
新建一个init.py 的空文件,此时的该文件夹不再是一个普通的文件夹,而是一个包 package
4..py文件引入后会产生一个.pyc文件,方便下次引入,提高效率
5.re.compile()和re.sub()用起来挺方便的
新闻热点
疑难解答