通过与R的网站链接循环

时间:2012-12-11 10:34:13

标签: r web hyperlink

我希望在R中加入一个循环,在NFL统计网站上查看每个游戏的分数数据:http://www.pro-football-reference.com/years/2012/games.htm

目前我不得不每周为每场比赛手动点击“boxscore”链接;有没有办法在R中自动化这个?我的代码使用每个链接中的完整播放数据集;现在它花了我的年龄!

1 个答案:

答案 0 :(得分:2)

网页抓取可能违反某些网站的使用条款。这些术语的可执行性尚不清楚。虽然在许多情况下,原始表达的完全重复将是非法的,但在美国,法院在Feist Publications诉农村电话服务中裁定重复事实是允许的。

require(RCurl)
require(XML)
bdata<-getURL('http://www.pro-football-reference.com/years/2012/games.htm')
bdata<-htmlParse(bdata)
boxdata<-xpathSApply(bdata,'//a[contains(@href,"boxscore")]',xmlAttrs)[-1]

以上将获得各种游戏的盒子比分。