content(urlb,as =“ text”)中的错误:R中的is.response(x)不是TRUE

时间:2019-07-12 10:39:22

标签: r rvest httr

我试图从网页上的多个链接访问文本,以便为某些机器学习算法构建训练语料库。

我可以创建链接列表,但是无法从每个网站中提取文本。我正在使用一个名为scrape_gold_articles的函数,该函数将每个URL传递给该函数并返回文章中的文本。

scrape_gold_article <- function(urlb) {

    html_document <- read_html(httr::content(urlb, as = "text"))
    current_articles <- html_document %>% 
    html_nodes(html_document, 'p') %>%
    html_text(trim = T)
    paste0(collapse = "\n")

    article <- data.frame(body = paste0(current_articles))

    return(article)
}

all_articles <- data.frame()

for (i in 1:length(forecast_Articles)) {

     article <- scrape_gold_article(forecast_Articles[i])

     all_articles <- rbind(all_articles, current_articles)
}

当代码到达all_articles <- rbind(all_articles, current_articles)行时,它将生成以下错误消息。

  

“内容错误(urlb,as =“ text”):is.response(x)不为真”

是否有人对此有解决方法,或者有一种循环浏览一系列链接,从url中提取文本并将其附加到现有文本文件中的替代方法?任何帮助将不胜感激。

致谢

0 个答案:

没有答案