我试图从网页上的多个链接访问文本,以便为某些机器学习算法构建训练语料库。
我可以创建链接列表,但是无法从每个网站中提取文本。我正在使用一个名为scrape_gold_articles
的函数,该函数将每个URL传递给该函数并返回文章中的文本。
scrape_gold_article <- function(urlb) {
html_document <- read_html(httr::content(urlb, as = "text"))
current_articles <- html_document %>%
html_nodes(html_document, 'p') %>%
html_text(trim = T)
paste0(collapse = "\n")
article <- data.frame(body = paste0(current_articles))
return(article)
}
all_articles <- data.frame()
for (i in 1:length(forecast_Articles)) {
article <- scrape_gold_article(forecast_Articles[i])
all_articles <- rbind(all_articles, current_articles)
}
当代码到达all_articles <- rbind(all_articles, current_articles)
行时,它将生成以下错误消息。
“内容错误(urlb,as =“ text”):is.response(x)不为真”
是否有人对此有解决方法,或者有一种循环浏览一系列链接,从url中提取文本并将其附加到现有文本文件中的替代方法?任何帮助将不胜感激。
致谢