我和我的一个学生一起帮助他scrape
来自游戏盒中提供的" Full Play-By-Play" 表中的数据得分Pro Football Reference.com.(他是体育研究专业,所以这不仅仅是为了他的乐趣。)
由于方框分数是动态生成的,我使用RSelenium package
,显然可以read
数据,但似乎parse
无法正常显示。我尝试使用rvest
和XLM packages
来做这件事,但到目前为止,没有运气。
似乎有用的代码:
rD <- rsDriver(browser="firefox") # My chrome browser has an issue...I'll fix it later
remDr <- rD[["client"]]
remDr$navigate("http://www.pro-football-reference.com/boxscores/201609110rav.htm")
webElem <- remDr$findElement('xpath', "//*[@id='all_pbp']")
page_source<-remDr$getPageSource()
我已经尝试过这种情况似乎无法正常工作。查看page_source中的内容,并将其与网站进行比较,我可以在那里看到所有适当的数据。我想,我可以写一个C++
应用到parse
这一切,但肯定在R
内有一种方法。我如何parse
page_source以合理的格式获取数据?
XPath
并非100%肯定;检查来源表明它可以是all_pbp
,div_pbp
,pbp
,甚至是//*[@id="all_pbp"/div[3]
,但我已尝试过每个具有相同结果的内容。 (它们都提供相同的完整Play-by-Play表,但有些还有其他标题信息等。)
谢谢!