Question

我试图从网页上的多个链接访问文本，以便为某些机器学习算法构建训练语料库。

我可以创建链接列表，但是无法从每个网站中提取文本。我正在使用一个名为scrape_gold_articles的函数，该函数将每个URL传递给该函数并返回文章中的文本。

scrape_gold_article <- function(urlb) {

    html_document <- read_html(httr::content(urlb, as = "text"))
    current_articles <- html_document %>% 
    html_nodes(html_document, 'p') %>%
    html_text(trim = T)
    paste0(collapse = "\n")

    article <- data.frame(body = paste0(current_articles))

    return(article)
}

all_articles <- data.frame()

for (i in 1:length(forecast_Articles)) {

     article <- scrape_gold_article(forecast_Articles[i])

     all_articles <- rbind(all_articles, current_articles)
}

当代码到达all_articles <- rbind(all_articles, current_articles)行时，它将生成以下错误消息。

“内容错误（urlb，as =“ text”）：is.response（x）不为真”

是否有人对此有解决方法，或者有一种循环浏览一系列链接，从url中提取文本并将其附加到现有文本文件中的替代方法？任何帮助将不胜感激。

致谢

content（urlb，as =“ text”）中的错误：R中的is.response（x）不是TRUE

0 个答案: