学习记录：python百度贴吧爬虫

2019-11-10 23:10:19

字体：大中小

来源：转载

供稿：网友

http://www.kuqin.com/shuoit/20150424/345877.html 继续从酷勤网上学习相关python爬虫。这次的代码是面向百度贴吧的爬虫

学习的过程中遇到的些许问题： 1.按照顺序逐渐添加代码的过程中，由于第一段代码的getPage()方法返回的是response，所以在后面添加代码的时候 page=self.getPage(1) ………… result=re.search(pattern,page) 会报错原因是由于，self.getPage(1)在之前的方法里返回的结果是response，正确应该返回response.read()或者 page=self.getPage(1).read(）方能运行成功 2.result.group(1) 这里的group(1)是输出匹配的第一个内容，假如是group(0)则是输出所以匹配字段。 3.尝试从其他文件导入tool.py，发现用import tool 会出现找不到tool里的变量问题，而用from tool import *则没这种问题。ps.加入要从其他文件夹里引用文件，则需要在对应文件夹中加入_ inti _.py的文件。

新建一个init.py 的空文件，此时的该文件夹不再是一个普通的文件夹，而是一个包 package

4..py文件引入后会产生一个.pyc文件，方便下次引入，提高效率

5.re.compile()和re.sub()用起来挺方便的

__author__='pwp'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport time#百度贴吧爬虫类#处理页面标签类class Tool: #取出img标签,7位长空格 removeImg = re.compile('<img.*?>| {7}|') #删除超链接标签 removeAddr = re.compile('<a.*?>|</a>') #把换行的标签换为/n replaceLine = re.compile('<tr>|<div>|</div>|</p>') #将表格制表<td>替换为t replaceTD = re.compile('<td>') #把段落开头换位/n加两空格 replacePare = re.compile('<p.*?>') #讲换行符或者双换行符替换成/n replaceBR = re.compile('<br><br>|<br>') #讲其余标签剔除 removeExtraTag = re.compile('<.*?>') def replace(self,x): x = re.sub(self.removeImg,"",x) x = re.sub(self.removeAddr,"",x) x = re.sub(self.replaceLine,"/n",x) x = re.sub(self.replaceTD,"/t",x) x = re.sub(self.replacePare,"/n ",x) x = re.sub(self.replaceBR,"/n",x) x = re.sub(self.removeExtraTag,"",x) return x.strip()class BDTB: #初始化,传入基地址.是否只看楼主的参数 def __init__(self,baseUrl,seeLZ,floorTag): self.baseURL = baseUrl self.seeFlag = str(seeLZ) self.seeLZ = '?see_lz='+str(seeLZ) #HTML标签剔除工具 self.tool = Tool() #全局变量file,文件写入操作对象 self.file = None #楼层标号,初始为1 self.floor = 1 #默认的标题,如果没成功获取标题的化就用这个标题 self.defaultTitle = u"百度贴吧" #是否写入楼分隔符的标记 self.floorTag = floorTag self.time=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) #传入页面,获取该页帖子的代码 def getPage(self,pageNum): try: url = self.baseURL+self.seeLZ+'&pn='+str(pageNum) request = urllib2.Request(url) # PRint url response = urllib2.urlopen(request) # print response.read() return response.read().decode('utf-8') except urllib2.URLError, e: if hasattr(e,"reason"): print u"链接百度贴吧失败,错误原因",e.reason return None #获取帖子标题 def getTitle(self,page): #page = self.getPage(1) pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S) # pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S) result = re.search(pattern,page) if result: # print result.group(1) # print '1' return result.group(1).strip() else: # print '2' return None def getPageNum(self,page): # page = self.getPage(1) pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S) # pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S) result = re.search(pattern,page) if result: #print result.group(1).strip() return result.group(1).strip() else: return None def getContent(self,page): #page = self.getPage(pageN) pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S) items = re.findall(pattern,page) contents=[] #floor = 1 # print self.tool.replace(items[1]) for item in items: # print floor,u"楼--------------------------------------------" # print self.tool.replace(item) # floor += 1 content = "/n"+self.tool.replace(item)+"/n" contents.append(content.encode('utf-8')) return contents def setFileTitle(self,title): #如果标题不是None,即成功获取到标题 if title is not None: if self.seeFlag == '1': self.file = open(self.time+u"_只看楼主_"+title+".txt","w+") else: self.file = open(self.time+title+".txt","w+") else : if self.seeFlag == '1': self.file = open(self.time+u"_只看楼主_"+self.defaultTitle+".txt","w+") else: self.file = open(self.time+self.defaultTitle+".txt","w+") #self.file = open("只看楼主"+self.defaultTitle+".txt","w+") def writeData(self,contents): #向文件写入每一楼的信息 for item in contents: if self.floorTag == '1': #楼之间的分隔符 floorLine = "/n"+str(self.floor)+u"--------------------------------------------------------------------------" self.file.write(floorLine) self.file.write(item) self.floor += 1 def start(self): indexPage = self.getPage(1) pageNum = self.getPageNum(indexPage) title = self.getTitle(indexPage) self.setFileTitle(title) if pageNum == None: print "URL已失效,请重试" return try: print "该帖子共有"+str(pageNum)+"页" for i in range(1,int(pageNum)+1): print "正在写入第"+str(i)+"页数据" page = self.getPage(i) contents = self.getContent(page) self.writeData(contents) #写入异常 except IOError,e: print "写入异常,原因"+e.message finally: print "写入任务完成" print u"请输入帖子代号"baseURL = 'http://tieba.baidu.com/p/3138733512'seeLZ = raw_input("是否只获取楼主发言,是输入1,否输入0/n")floorTag = raw_input("输入写入楼层信息,是输入1,否输入0/n")bdtb = BDTB(baseURL,seeLZ,floorTag)bdtb.start()#bdtb.getPage(1)#bdtb.getTitle()#bdtb.getPageNum()#bdtb.getContent(1)#bdtb.getContent(1)

上一篇：为python解释器添加tab补全

下一篇：Python命令行参数解析optparse