用HtmlParser 写个简单的 news爬虫

2020-03-24 18:38:46

字体：大中小

来源：转载

供稿：网友

有一段时间没写博客了，这几天回到学校我同学要赶着交毕业设计，让我帮他写个爬虫，专门抓搜狐的新闻，我用过爬虫，但是从来没有自己写过爬虫，于是Google了一下，找到了一篇不错的文章：使用 HttpClient 和 HtmlParser 实现简易爬虫 . 参考里面的代码，自己写了个简易的搜狐新闻爬虫。爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻，然后将新闻添加到数据库中。代码其实很简单的： LinkParser.javaimport com.sohu.SohuNews;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;/**
* 这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。
* @author guanminglin
*/
public class LinkParser {
// 获取一个网站上的链接,filter 用来过滤链接 public static Set String extracLinks(String url, LinkFilter filter) { Set String links = new HashSet String
try {
Parser parser = new Parser(url);
parser.setEncoding("gb2312");
// 过滤 frame 标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接
NodeFilter frameFilter = new NodeFilter() { public boolean accept(Node node) {
if (node.getText().startsWith("frame src=")) {
return true;
} else {
return false;
}
}
};
// OrFilter 来设置过滤 a 标签，和 frame 标签
OrFilter linkFilter = new OrFilter(new NodeClassFilter(
LinkTag.class), frameFilter);
// 得到所有经过过滤的标签
NodeList list = parser.extractAllNodesThatMatch(linkFilter);
for (int i = 0; i list.size(); i++) {
Node tag = list.elementAt(i);
if (tag instanceof LinkTag)// a 标签
{
LinkTag link = (LinkTag) tag;
String linkUrl = link.getLink();// url
if (filter.accept(linkUrl)) {
links.add(linkUrl);
}
} else// frame 标签
{
// 提取 frame 里 src 属性的链接如 frame src="test.html"/
String frame = tag.getText();
int start = frame.indexOf("src=");
frame = frame.substring(start);
int end = frame.indexOf(" ");
if (end == -1) {
end = frame.indexOf("
}
String frameUrl = frame.substring(5, end - 1);
if (filter.accept(frameUrl)) {
links.add(frameUrl);
}
}
}
} catch (ParserException e) {
e.printStackTrace();
}
return links;
} public void doParser(String url) {
SohuNews news = new SohuNews();
Set String links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 开头的链接 public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[//d]+/n[//d]+.shtml")) {
return true;
} else {
return false;
}
}
});
//循环迭代出连接，然后提取该连接中的新闻。
for (String link : links) {
System.out.println(link);
news.parser(link); //解析连接

}
} //测试主页新闻，可以得到主页上所有符合要求的网页地址，并进行访问。
public static void main(String[] args) {
String url = "http://news.sohu.com/";
LinkParser parser = new LinkParser();
parser.doParser(url); }
} 上面这段带码比较简单，就是用来提取 http://news.sohu.com 上面的新闻连接，格式类似这样：http://news.sohu.com/20090518/n264012864.shtml 所以写了一小段的正则表达式来匹配他：Set String links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 开头的链接 public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[//d]+/n[//d]+.shtml")) {
return true;
} else {
return false;
}
}
}); 还有一个核心类就是用来解析搜狐新闻的类，该类用于重网页中提取出新闻，然后将新闻添加到数据库中。代码中还用到了一个NewsBean 这段代码就不贴出来了，很简单的POJO 代码。核心代码都在下面。 SohuNews.javaimport com.sohu.bean.NewsBean;
import com.sohu.db.ConnectionManager;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.HeadingTag;
import org.htmlparser.tags.Span;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;import java.sql.PreparedStatement;
import java.sql.SQLException;/**
* 用于对搜狐网站上的新闻进行抓取
* @author guanminglin guanminglin@gmail.com
*/
public class SohuNews { private Parser parser = null; //用于分析网页的分析器。
private List newsList = new ArrayList(); //暂存新闻的List；
private NewsBean bean = new NewsBean();
private ConnectionManager manager = null; //数据库连接管理器。
private PreparedStatement pstmt = null; public SohuNews() {
} /**
* 获得一条完整的新闻。
* @param newsBean
* @return
*/
public List getNewsList(final NewsBean newsBean) {
List list = new ArrayList();
String newstitle = newsBean.getNewsTitle();
String newsauthor = newsBean.getNewsAuthor();
String newscontent = newsBean.getNewsContent();
String newsdate = newsBean.getNewsDate();
list.add(newstitle);
list.add(newsauthor);
list.add(newscontent);
list.add(newsdate);
return list;
} /**
* 设置新闻对象，让新闻对象里有新闻数据
* @param newsTitle 新闻标题
* @param newsauthor 新闻作者
* @param newsContent 新闻内容
* @param newsDate 新闻日期
* @param url 新闻链接
*/
public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) {
bean.setNewsTitle(newsTitle);
bean.setNewsAuthor(newsauthor);
bean.setNewsContent(newsContent);
bean.setNewsDate(newsDate);
bean.setNewsURL(url);
} /**
* 该方法用于将新闻添加到数据库中。
*/
protected void newsToDataBase() { //建立一个线程用来执行将新闻插入到数据库中。
Thread thread = new Thread(new Runnable() { public void run() {
boolean sucess = saveToDB(bean);
if (sucess != false) {
System.out.println("插入数据失败");
}
}
});
thread.start();
} /**
* 将新闻插入到数据库中
* @param bean
* @return
*/
public boolean saveToDB(NewsBean bean) {
boolean flag = true;
String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)";
manager = new ConnectionManager();
String titleLength = bean.getNewsTitle();
if (titleLength.length() 60) { //标题太长的新闻不要。
return flag;
}
try {
pstmt = manager.getConnection().prepareStatement(sql);
pstmt.setString(1, bean.getNewsTitle());
pstmt.setString(2, bean.getNewsAuthor());
pstmt.setString(3, bean.getNewsContent());
pstmt.setString(4, bean.getNewsURL());
pstmt.setString(5, bean.getNewsDate());
flag = pstmt.execute(); } catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} finally {
try {
pstmt.close();
manager.close();
} catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} }
return flag;
} /**
* 获得新闻的标题
* @param titleFilter
* @param parser
* @return
*/
private String getTitle(NodeFilter titleFilter, Parser parser) {
String titleName = "";
try { NodeList titleNodeList = (NodeList) parser.parse(titleFilter);
for (int i = 0; i titleNodeList.size(); i++) {
HeadingTag title = (HeadingTag) titleNodeList.elementAt(i);
titleName = title.getStringText();
} } catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return titleName;
} /**
* 获得新闻的责任编辑，也就是作者。
* @param newsauthorFilter
* @param parser
* @return
*/
private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) {
String newsAuthor = "";
try {
NodeList authorList = (NodeList) parser.parse(newsauthorFilter);
for (int i = 0; i authorList.size(); i++) {
Div authorSpan = (Div) authorList.elementAt(i);
newsAuthor = authorSpan.getStringText();
} } catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return newsAuthor; } /*
* 获得新闻的日期
*/
private String getNewsDate(NodeFilter dateFilter, Parser parser) {
String newsDate = null;
try {
NodeList dateList = (NodeList) parser.parse(dateFilter);
for (int i = 0; i dateList.size(); i++) {
Span dateTag = (Span) dateList.elementAt(i);
newsDate = dateTag.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} return newsDate;
} /**
* 获取新闻的内容
* @param newsContentFilter
* @param parser
* @return content 新闻内容
*/
private String getNewsContent(NodeFilter newsContentFilter, Parser parser) {
String content = null;
StringBuilder builder = new StringBuilder();
try {
NodeList newsContentList = (NodeList) parser.parse(newsContentFilter);
for (int i = 0; i newsContentList.size(); i++) {
Div newsContenTag = (Div) newsContentList.elementAt(i);
builder = builder.append(newsContenTag.getStringText());
}
content = builder.toString(); //转换为String 类型。
if (content != null) {
parser.reset();
parser = Parser.createParser(content, "gb2312");
StringBean sb = new StringBean();
sb.setCollapse(true);
parser.visitAllNodesWith(sb);
content = sb.getStrings();
// String s = "/";} else{ document.getElementById('TurnAD444').innerHTML = /"/";} } showTurnAD444(intTurnAD444); }catch(e){}";

content = content.replaceAll("///".*[a-z].*//}", "");

content = content.replace("[我来说两句]", "");
} else {
System.out.println("没有得到新闻内容！");
} } catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} return content;
} /**
* 根据提供的URL，获取此URL对应网页所有的纯文本信息，次方法得到的信息不是很纯，
*常常会得到我们不想要的数据。不过如果你只是想得到某个URL 里的所有纯文本信息，该方法还是很好用的。
* @param url 提供的URL链接
* @return RL对应网页的纯文本信息
* @throws ParserException
* @deprecated 该方法被 getNewsContent()替代。
*/
@Deprecated
public String getText(String url) throws ParserException {
StringBean sb = new StringBean(); //设置不需要得到页面所包含的链接信息
sb.setLinks(false);
//设置将不间断空格由正规空格所替代
sb.setReplaceNonBreakingSpaces(true);
//设置将一序列空格由一个单一空格所代替
sb.setCollapse(true);
//传入要解析的URL
sb.setURL(url); //返回解析后的网页纯文本信息
return sb.getStrings();
} /**
* 对新闻URL进行解析提取新闻，同时将新闻插入到数据库中。
* @param content
*/
public void parser(String url) {
try {
parser = new Parser(url);
NodeFilter titleFilter = new TagNameFilter("h1");
NodeFilter contentFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "sohu_content"));
NodeFilter newsdateFilter = new AndFilter(new TagNameFilter("span"), new HasAttributeFilter("class", "c"));
NodeFilter newsauthorFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class", "editUsr"));
String newsTitle = getTitle(titleFilter, parser);
parser.reset(); //记得每次用完parser后，要重置一次parser。要不然就得不到我们想要的内容了。
String newsContent = getNewsContent(contentFilter, parser);
System.out.println(newsContent); //输出新闻的内容，查看是否符合要求
parser.reset();
String newsDate = getNewsDate(newsdateFilter, parser);
parser.reset();
String newsauthor = getNewsAuthor(newsauthorFilter, parser); //先设置新闻对象，让新闻对象里有新闻内容。
setNews(newsTitle, newsauthor, newsContent, newsDate, url);
//将新闻添加到数据中。
this.newsToDataBase();

} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
} //单个文件测试网页
public static void main(String[] args) {
SohuNews news = new SohuNews();
news.parser("http://news.sohu.com/20090518/n264012864.shtml");
}
}
存放新闻的数据库用的是MySql 建表语句如下：（其实不用数据库也可以的，在SohuNews类中注释掉那行红色的代码就可以了，所有得到的新闻都会在后台打印的。）CREATE DATABASE IF NOT EXISTS sohunews;
USE sohunews;--
-- Definition of table `news`
--DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
`newsid` int(11) NOT NULL auto_increment,
`newstitle` varchar(60) NOT NULL,
`newsauthor` varchar(20) NOT NULL,
`newscontent` text NOT NULL,
`newsurl` char(130) NOT NULL,
`newsdate` varchar(24) NOT NULL,
PRIMARY KEY (`newsid`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8; 以上的代码写的很粗糙，项目中使用到了HtmlParser工具包，如果需要可以到http://sourceforge.net/projects/htmlparser 网站上下载。如果有需要这个爬虫项目源码的朋友可以留下E-mail 索取。这篇文章只是一篇抛砖引玉的文章，希望懂爬虫的你能够给点意见，大家交流交流！！html教程

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

上一篇：html中关于a标签href和onclick的用法区别以及优先级

下一篇：关于HTML中Meta标签的那些事