Java爬虫框架WebMagic的使用总结

2019-11-06 09:17:18

字体：大中小

来源：转载

供稿：网友

最近，项目做一个公司新闻网站，分为PC&移动端(h5)，数据来源是从HSZX与huanqiu2个网站爬取，主要使用java编写的WebMagic作为爬虫框架，数据分为批量抓取、增量抓取，批量抓当前所有历史数据，增量需要每10分钟定时抓取一次，由于从2个网站抓取，并且频道很多，数据量大，更新频繁；开发过程中遇到很多的坑，今天腾出时间，感觉有必要做以总结。

工具说明：

1、WebMagic是一个简单灵活的爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。

官网地址：http://webmagic.io/

文档说明：http://webmagic.io/docs/zh/

2、jsoup是Java的一个html解析工作，解析性能很不错。

文档地址：http://www.open-open.com/jsoup/

3、Jdiy一款超轻量的java极速开发框架，javaEE/javaSE环境均适用，便捷的数据库CRUD操作API。支持各大主流数据库。

官网地址：http://www.jdiy.org/jdiy.jd

一、使用到的技术，如下： WebMagic作为爬虫框架、httpclient作为获取网页工具、Jsoup作为分析页面定位抓取内容、ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架二、历史抓取代码，如下:

[java] view plain copy

package com.spider.huanqiu.history; import java.util.ArrayList; import java.util.List; import org.apache.commons.lang3.StringUtils; import org.jdiy.core.Rs; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.PRocessor.PageProcessor; import com.spider.huasheng.history.Pindao; import com.spider.utils.Config; import com.spider.utils.ConfigBase; import com.spider.utils.DateUtil; import com.spider.utils.HttpClientUtil; import com.spider.utils.service.CommService; /** * 描述：抓取xxx-国际频道历史数据 * 创建时间：2016-11-9 * @author Jibaole */ public class HQNewsDao extends ConfigBase implements PageProcessor{ public static final String index_list = "(.*).huanqiu.com/(.*)pindao=(.*)";//校验地址正则 public static String pic_dir = fun.getProValue(PINDAO_PIC_FILE_PATH);//获取图片保存路径 // 部分一：抓取网站的相关配置，包括编码、重试次数、抓取间隔、超时时间、请求消息头、UA信息等 private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(6000) .addHeader("Accept-Encoding", "/").setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.59 Safari/537.36"); @Override public Site getSite() { return site; } @Override public void process(Page page) { try { //列表页 if (page.getUrl().regex(index_list).match()) { List<String> Urllist =new ArrayList<String>(); String url =page.getUrl().toString(); String pageUrl = url.substring(0,url.lastIndexOf("?")); String pindaoId =url.substring(url.lastIndexOf("=")+1); Urllist = saveNewsListData(pageUrl,pindaoId); page.addTargetRequests(Urllist);//添加地址，根据url对该地址处理 } //可增加else if 处理不同URL地址 } catch (Exception e) { e.printStackTrace(); } } private List<String> saveNewsListData(String pageUrl,String pindaoId) { List<String> urlList = new ArrayList<String>(); Document docList = null; String newsIdFirst=""; String pageListStr=HttpClientUtil.getPage(pageUrl);//HttpClientUtil方式获取网页内容 if(StringUtils.isNotEmpty(pageListStr)){ try { docList = Jsoup.parse(pageListStr); Elements fallsFlow=docList.getElementsByClass("fallsFlow"); if(!fallsFlow.isEmpty()){ Elements liTag=fallsFlow.get(0).getElementsByTag("li"); if(!liTag.isEmpty()){ for(int i=0;i<liTag.size();i++){ String title="",contentUrl="",newsId="",pic="",absContent="",pushTime="",timeFalg=""; Element obj=liTag.get(i); try{ contentUrl=obj.getElementsByTag("h3").select("a").attr("href"); if(StringUtils.isNotEmpty(contentUrl)){ title=obj.getElementsByTag("h3").select("a").attr("title");//标题 Rs isTitle = CommService.checkNewsName(title); //校验新闻标题 if(!isTitle.isNull()){ continue; } System.err.println("<<<<<<--DAO------当前抓取文章为(xxx历史):"+title+"------------"); newsId = contentUrl.substring(contentUrl.lastIndexOf("/") + 1,contentUrl.lastIndexOf(".html")); if(!pageUrl.contains(".htm") && i == 0){ newsIdFirst = newsId; } //图片 if(!obj.getElementsByTag("img").attr("src").isEmpty()){ pic=obj.getElementsByTag("img").first().attr("src"); if(StringUtils.isNotEmpty(pic) ){ pic = fun.downloadPic(pic,pic_dir+"list/"+newsId+"/");//获取列表图片，保存本地 } } if(!obj.getElementsByTag("h5").isEmpty()){ //简介 absContent = obj.getElementsByTag("h5").first().text(); if(StringUtils.isNotEmpty(absContent) && absContent.indexOf("[")>0){ absContent = absContent.substring(0, absContent.indexOf("[")); } } if(!obj.getElementsByTag("h6").isEmpty()){ pushTime = obj.getElementsByTag("h6").text(); timeFalg=pushTime.substring(0, 4); } String hrmlStr=HttpClientUtil.getPage(contentUrl); if(StringUtils.isNotEmpty(hrmlStr)){ Document docPage = Jsoup.parse(hrmlStr); Elements pageContent = docPage.getElementsByClass("conText"); if(!pageContent.isEmpty()){ String comefrom = pageContent.get(0).getElementsByClass("fromSummary").text();//来源 if(StringUtils.isNotEmpty(comefrom) && comefrom.contains("环球")){ String author=pageContent.get(0).getElementsByClass("author").text();//作者 Element contentDom = pageContent.get(0).getElementById("text"); if(!contentDom.getElementsByTag("a").isEmpty()){ contentDom.getElementsByTag("a").removeAttr("href");//移除外跳连接 } if(!contentDom.getElementsByClass("reTopics").isEmpty()){ contentDom.getElementsByClass("reTopics").remove();//推荐位 } if(!contentDom.getElementsByClass("spTopic").isEmpty()){ contentDom.getElementsByClass("spTopic").remove(); //去除排行榜列表 } if(!contentDom.getElementsByClass("editorSign").isEmpty()){ contentDom.getElementsByClass("editorSign").remove();//移除编辑标签 } String content = contentDom.toString(); if(!StringUtils.isEmpty(content)){ content = content.replaceAll("/r/n|/r|/n|/t|/b|~|/f", "");//去掉回车换行符 content = replaceForNews(content,pic_dir+"article/"+newsId+"/");//替换内容中的图片 while (true) { if(content.indexOf("")>0){ String moveContent= content.substring(content.indexOf("")+3);//去除注释 content = content.replace(moveContent, ""); } if(content.indexOf("<script") >0 && content.lastIndexOf("</script>")>0){ String moveContent= content.substring(content.indexOf("<script"), content.indexOf("</script>")+9);//去除JS content = content.replace(moveContent, ""); } } } } if(StringUtils.isEmpty(timeFalg) || "2016".equals(timeFalg) || "28".equals(pindaoId) || "29".equals(pindaoId) || "30".equals(pindaoId)){ Rs news= new Rs("News"); news.set("title", title); news.set("shortTitle",title); news.set("beizhu",absContent); news.set("savetime", pushTime); if(StringUtils.isNotEmpty(pic)){ news.set("path", pic); news.set("mini_image", pic); } news.set("pindaoId", pindaoId); news.set("status", 0);//不显示 news.set("canComment", 1);//是否被评论 news.set("syn", 1);//是否异步 news.set("type", 1);//是否异步 news.set("comefrom",comefrom); news.set("author", author); news.set("content", content); news.set("content2", content); CommService.save(news); System.err.println("------新增(xxx历史):"+title+"------>>>>>>>"); }else{ break; } } } } } }catch (Exception e) { e.printStackTrace(); } } } if(!pageUrl.contains(".htm")){ //得到分页内容 Element pages = docList.getElementById("pages"); int num = pages.getElementsByTag("a").size(); String pageMaxStr = pages.getElementsByTag("a").get(num-2).text(); int pageMax=0; if(StringUtils.isNotEmpty(pageMaxStr)){ pageMax= Integer.parseInt(pageMaxStr); } if(pageMax>historyMaxPage){//控制历史抓取页数 pageMax = historyMaxPage; } for(int i=1 ;i<pageMax;i++){//翻页请求 String link = ""; link = pageUrl+(i+1)+".html?pindao="+pindaoId; urlList.add(link);//循环处理url，翻页内容 } //获取增量标识 Rs flag = CommService.checkPd(pindaoId,pageUrl,Config.SITE_HQ); //初始化 if(flag.isNull()){ Rs task= new Rs("TaskInfo"); task.set("pindao_id", pindaoId); task.set("news_id", newsIdFirst); task.set("page_url", pageUrl); task.set("site", Config.SITE_HQ); task.set("create_time", DateUtil.fullDate()); CommService.save(task); } } } } catch (Exception e) { e.printStackTrace(); } } return urlList; } public static void main(String[] args) { List<String> strList=new ArrayList<String>(); strList.add("http://www.xxx/exclusive/?pindao="+Pindao.getKey("国际")); //滚动新闻 strList.add("http://www.xxx/article/?pindao="+Pindao.getKey("国际")); for(String str:strList){ Spider.create(new HQNewsDao()).addUrl(str).thread(1).run(); } } //所有频道Action public static void runNewsList(List<String> strList){ for(String str:strList){ Spider.create(new HQNewsDao()).addUrl(str).thread(1).run(); //添加爬取地址、设置线程数 } } } 三、增量抓取代码，如下(在历史上改动):

说明：增量每10分钟执行一次，每次只抓取最新一页数据，根据增量标识(上一次第一条新闻news_id)，存在相同news_id或一页爬完就终止抓取。