首页 > 学院 > 开发设计 > 正文

学习网络爬虫(1)

2019-11-14 15:42:36
字体:
来源:转载
供稿:网友

初学网络爬虫,请多多指教

以下是我觉得有用的资源总结,资源均来自网上

 

编程语言:java

使用网络爬虫:spiderman

 

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。
Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

 

Spiderman开源中国链接(含文档及下载): http://www.oschina.net/p/spiderman

Spiderman Java 爬虫示例: http://my.oschina.net/laiweiwei/blog/99937

【最新更新支持频道分页、文章分页】【抛砖引玉】抓取OSC的问答数据展现垂直爬虫的能力 :http://my.oschina.net/laiweiwei/blog/100866

XPath JAVA用法总结及代码样例 :http://www.open-open.com/lib/view/open1397717612656.html

vevb  XPath教程 : http://www.vevb.com.cn/xpath/index.asp

 


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表