Question

我和我的一个学生一起帮助他scrape来自游戏盒中提供的＆＃34; Full Play-By-Play＆＃34; 表中的数据得分Pro Football Reference.com.（他是体育研究专业，所以这不仅仅是为了他的乐趣。）

由于方框分数是动态生成的，我使用RSelenium package，显然可以read数据，但似乎parse无法正常显示。我尝试使用rvest和XLM packages来做这件事，但到目前为止，没有运气。

似乎有用的代码：

 rD <- rsDriver(browser="firefox") # My chrome browser has an issue...I'll fix it later
    remDr <- rD[["client"]]
    remDr$navigate("http://www.pro-football-reference.com/boxscores/201609110rav.htm")
    webElem <- remDr$findElement('xpath', "//*[@id='all_pbp']")
    page_source<-remDr$getPageSource()

我已经尝试过这种情况似乎无法正常工作。查看page_source中的内容，并将其与网站进行比较，我可以在那里看到所有适当的数据。我想，我可以写一个C++应用到parse这一切，但肯定在R内有一种方法。我如何parse page_source以合理的格式获取数据？

顺便说一句，我对XPath并非100％肯定;检查来源表明它可以是all_pbp，div_pbp，pbp，甚至是//*[@id="all_pbp"/div[3]，但我已尝试过每个具有相同结果的内容。（它们都提供相同的完整Play-by-Play表，但有些还有其他标题信息等。）

谢谢！

RSelenium：如何从Pro Football Reference.com中获取数据？

0 个答案: