RSelenium:如何从Pro Football Reference.com中获取数据?

时间:2017-02-16 18:58:28

标签: r rselenium

我和我的一个学生一起帮助他scrape来自游戏盒中提供的" Full Play-By-Play" 表中的数据得分Pro Football Reference.com.(他是体育研究专业,所以这不仅仅是为了他的乐趣。)

由于方框分数是动态生成的,我使用RSelenium package,显然可以read数据,但似乎parse无法正常显示。我尝试使用rvestXLM packages来做这件事,但到目前为止,没有运气。

似乎有用的代码:

 rD <- rsDriver(browser="firefox") # My chrome browser has an issue...I'll fix it later
    remDr <- rD[["client"]]
    remDr$navigate("http://www.pro-football-reference.com/boxscores/201609110rav.htm")
    webElem <- remDr$findElement('xpath', "//*[@id='all_pbp']")
    page_source<-remDr$getPageSource()

我已经尝试过这种情况似乎无法正常工作。查看page_source中的内容,并将其与网站进行比较,我可以在那里看到所有适当的数据。我想,我可以写一个C++应用到parse这一切,但肯定在R内有一种方法。我如何parse page_source以合理的格式获取数据?

顺便说一句,我对XPath并非100%肯定;检查来源表明它可以是all_pbpdiv_pbppbp,甚至是//*[@id="all_pbp"/div[3],但我已尝试过每个具有相同结果的内容。 (它们都提供相同的完整Play-by-P​​lay表,但有些还有其他标题信息等。)

谢谢!

0 个答案:

没有答案