我正在使用 rvest 软件包,下面是代码:
library(rvest)
url <- 'https://www.zhihu.com/people/excited-vczh'
webpage <- read_html(url)
profile_data <- html_nodes(webpage, '.Profile-sideColumnItemLink')
profile_data_text <- html_text(profile_data)
代码读取一个URL并进行解析。如果我有一个存储多个网址的字符向量,该怎么办?我应该如何将这些网址放在上述代码中? 例如, urlist 是存储1000个网址的字符。如何更改代码以抓取urlist中的所有特定内容?
答案 0 :(得分:0)
您可以只使用lapply
遍历每个URL来获取所需的文本:
library(rvest)
urlist <- rep('https://www.zhihu.com/people/excited-vczh', 100)
profile_data_list <- lapply(urlist, function(x) {
webpage <- read_html(x)
profile_data <- html_nodes(webpage, '.Profile-sideColumnItemLink')
html_text(profile_data)
})