如何在R中使用RSelenium来抓取文本?

时间:2016-02-24 13:12:29

标签: r web-scraping css-selectors rselenium

我想把文字和#34; VIRGINIA TECH"来自网站http://stats.statbroadcast.com/statmonitr/?id=102197使用RSelenium包。

我想要抓取的特定文本的css选择器是:

.valigntop:nth-child(1) .width6-3-4.marginr

打开远程驱动程序并导航到该网站后,我尝试:

webElem <- remDr$findElement(using = "css selector", '.valigntop:nth-child(1) .width6-3-4.marginr')
doc <- remDr$getPageSource()[[1]]
current_doc <- read_html(doc)
current_doc <- html_text(current_doc)

这会返回一大块文字,而不是我想要的文字&#34; VIRGINIA TECH&#34;。

刮掉我想要的东西后:

current_doc
[1] "VIRGINIA TECH"

任何帮助将不胜感激。如果需要任何进一步的信息,请告诉我。

2 个答案:

答案 0 :(得分:1)

通过此link阅读后 我发现这很适合刮掉我想要的文字。

webElems <- remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")
current_doc <- unlist(lapply(webElems, function(x){x$getElementText()}))

结果:

current_doc
[1] "VIRGINIA TECH"

答案 1 :(得分:1)

简单。

TopWorker

这也有效!!