使用rvest获取网页链接

时间:2018-02-09 02:39:29

标签: r web-scraping rvest

我尝试使用rvest从本网站提取“VAI ALLA SCHEDA PRODOTTO”的链接:

https://www.asusworld.it/series.asp?m=Notebook#db_p=2

我的R代码:

library(rvest)

page.source <- read_html("https://www.asusworld.it/series.asp?m=Notebook#db_p=2")
version.block <- html_nodes(page.source, "a") %>% html_attr("href")

但是,我无法获得任何类似“/model.asp?p=2340487”的链接。我该怎么办?

element looks like this

1 个答案:

答案 0 :(得分:0)

您可以使用RSelenium从网站上请求预期信息。

加载相关的包。 (请确保R包'wdman'是最新的。)

library("RSelenium")
library("wdman")

Initialize R Selenium服务器(我使用Firefox - 推荐)。

rD <- rsDriver(browser = "firefox", port = 4850L)
rd <- rD$client

Navigate到网址(并设置适当的等待时间)。

rd$navigate("https://www.asusworld.it/series.asp?m=Notebook#db_p=2")
Sys.sleep(5)

请求预期信息(例如,您可以参考元素的“xpath”。

element <- rd$findElement(using = 'xpath', "//*[@id='series']/div[2]/div[2]/div/div/div[2]/table/tbody/tr/td/div/a/div[2]")

显示请求的元素(即信息)。

element$getElementText()
[[1]]
[1] "VAI ALLA SCHEDA PRODOTTO"

提供详细的教程here(对于操作系统,请参阅此tutorial)。希望这有帮助。