RSelenium:第

时间:2017-08-06 10:43:18

标签: rselenium

我对RSelenium比较新。我已成功设法登录我需要提取所有网络链接的网站。

该概述页面如下所示:

<a title="Search 'A2A'" href="/search?company=a2a&amp;rf=13">A2A</a>
<a title="Search 'ABB'" href="/search?company=abb&amp;rf=13">ABB</a>
<a title="Search 'Achmea'" href="/search?company=achmea&amp;rf=13">Achmea</a>

等......继续另外~6000个链接

我尝试使用以下行来获取所有链接,但这不起作用:

remDr$findElement(using="link text", value="href")

如果有人能告诉我如何获取所有链接,包括公司名称,如'A2A','ABB','Achmea'等,我将非常感激。

此致 mr_bungles

1 个答案:

答案 0 :(得分:0)

我建议您将'rvest'和'tidyverse'与RSelenium一起使用。

library(tidyverse)
library(rvest)

url <- 'add your url here'

pg <- read_html(url)

tbl <- tibble(
    text = pg %>% html_nodes('add css selector here') %>% html_text()
    link = pg %>% html_nodes('add css selector here') %>% html_attr('href')
)