RSelenium webscrape

时间:2015-11-26 12:10:09

标签: javascript r web-scraping

我正在尝试抓一个网站,但javascript导致我的问题。我使用RSelenium访问我想要的页面,并给出html我可以解析它并获取我想要的数据。然而,这是我无法解决的中间步骤。这就是我所拥有的:

library('RSelenium')
checkForServer()
startServer()
remDr <- remoteDriver(browserName="firefox", port=4444)
remDr$open(silent=T)
library('XML')
url <- "http://racing.hkjc.com/racing/Info/Meeting/Results/english/Local/20141012/ST/1"
remDr$navigate(url)
elem <- remDr$findElement(using="div id", value="results")  # PROBLEM HERE, CAN'T FIND A TAG THAT WORKS!
elemtxt <- elem$getElementAttribute("outerHTML")[[1]]  # possible continuation
elemxml <- htmlTreeParse(elemtxt, useInternalNodes=T)

(我在页面上的大部分数据之后:结果表,正上方的信息,红利表和赛车事件报告。但是我知道如果我有elemxml,那该怎么办。)

非常感谢

1 个答案:

答案 0 :(得分:0)

类似的东西:

doc <- htmlParse(remDr$getPageSource()[[1]])
readHTMLTable(doc)

应该允许您访问html并处理包含的表。