如何使用read_html读取url的字符向量

时间:2019-02-20 09:03:18

标签: r rvest

我正在使用 rvest 软件包,下面是代码:

library(rvest)
url <- 'https://www.zhihu.com/people/excited-vczh'
webpage <- read_html(url)
profile_data <- html_nodes(webpage, '.Profile-sideColumnItemLink') 
profile_data_text <- html_text(profile_data)

代码读取一个URL并进行解析。如果我有一个存储多个网址的字符向量,该怎么办?我应该如何将这些网址放在上述代码中? 例如, urlist 是存储1000个网址的字符。如何更改代码以抓取urlist中的所有特定内容?

1 个答案:

答案 0 :(得分:0)

您可以只使用lapply遍历每个URL来获取所需的文本:

library(rvest)
urlist <- rep('https://www.zhihu.com/people/excited-vczh', 100)
profile_data_list <- lapply(urlist, function(x) {
  webpage <- read_html(x)
  profile_data <- html_nodes(webpage, '.Profile-sideColumnItemLink') 
  html_text(profile_data)
})