首页 > 学院 > 开发设计 > 正文

R语言实现简单的网页数据抓取

2019-11-08 03:02:02
字体:
来源:转载
供稿:网友

在知乎遇到这样一个问题。

https://www.zhihu.com/question/26385408/answer/147009602

这是要爬取的内容的网页: 这里写图片描述

R语言的代码的实现方式如下:

#安装xml包>install.packages("XML")#载入XML包> library(XML)#确定网页地址,通过网页地址分析网页表格> url<-"http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml"> tbls<-reaDHTMLTable(url)> sapply(tbls,nrow)NULL NULL 93 8 #读取网页url的第一张表> pop<-readHTMLTable(url,which = 1)#存储pop为CSV文档> write.csv(pop,file="F:/pop.csv")

我们还可以保存为其他格式:

#保存为简单文本:>write.table(x, file = "*.txt")#保存为R格式文件:>save(x, file = "*.Rdata")

这里写图片描述


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表