Question

我正在使用 rvest 软件包，下面是代码：

library(rvest)
url <- 'https://www.zhihu.com/people/excited-vczh'
webpage <- read_html(url)
profile_data <- html_nodes(webpage, '.Profile-sideColumnItemLink') 
profile_data_text <- html_text(profile_data)

代码读取一个URL并进行解析。如果我有一个存储多个网址的字符向量，该怎么办？我应该如何将这些网址放在上述代码中？例如， urlist 是存储1000个网址的字符。如何更改代码以抓取urlist中的所有特定内容？

Answer 1

您可以只使用lapply遍历每个URL来获取所需的文本：

library(rvest)
urlist <- rep('https://www.zhihu.com/people/excited-vczh', 100)
profile_data_list <- lapply(urlist, function(x) {
  webpage <- read_html(x)
  profile_data <- html_nodes(webpage, '.Profile-sideColumnItemLink') 
  html_text(profile_data)
})

如何使用read_html读取url的字符向量

1 个答案: