我希望在R中加入一个循环,在NFL统计网站上查看每个游戏的分数数据:http://www.pro-football-reference.com/years/2012/games.htm
目前我不得不每周为每场比赛手动点击“boxscore”链接;有没有办法在R中自动化这个?我的代码使用每个链接中的完整播放数据集;现在它花了我的年龄!
答案 0 :(得分:2)
网页抓取可能违反某些网站的使用条款。这些术语的可执行性尚不清楚。虽然在许多情况下,原始表达的完全重复将是非法的,但在美国,法院在Feist Publications诉农村电话服务中裁定重复事实是允许的。
require(RCurl)
require(XML)
bdata<-getURL('http://www.pro-football-reference.com/years/2012/games.htm')
bdata<-htmlParse(bdata)
boxdata<-xpathSApply(bdata,'//a[contains(@href,"boxscore")]',xmlAttrs)[-1]
以上将获得各种游戏的盒子比分。