Rvest:从csv中删除多个URL

时间:2019-11-28 11:06:33

标签: web-scraping rvest

我正在尝试从多个网站中删除某些元素。一对一的rvest可以正常工作,但是是否有可能一次废弃所有URL?我有一个包含所有URL的csv文件,但在read_html中插入的字符串值不能超过一个。你有想法吗?提前谢谢

现在我是这样工作的:

 test1<- read_html("https://www.startnext.com/higchic")

Site1 <- test1 %>% 
  html_nodes(".js-accordeon:nth-child(4) .accordeon__answer") %>%
  html_text() %>%
  as.character()

test2<- read_html("https://www.startnext.com/sauberkasten")

Site2 <- test2 %>% 
  html_nodes(".js-accordeon:nth-child(4) .accordeon__answer") %>%
  html_text() %>%
  as.character()

1 个答案:

答案 0 :(得分:0)

您可以通过串联URL一次抓取一些,但是多于一些将导致错误。如果您了解如何,请告诉我。

这是代码:

 url <- c("https://www.vox.com/", "https://www.bbc.com/")
 page <-map(url, ~read_html(.x) %>% html_nodes("p") %>% html_text())
 str(page)