Question

我使用＆＃34; rvest＆＃34; -package抓取this website。当我迭代我的函数太多次时，我得到＆＃34; open.connection中的错误（x，＆＃34; rb＆＃34;）：达到超时＆＃34;。我搜索过类似的问题，但答案似乎导致死路一条。我怀疑它是服务器端，并且网站对我可以访问该页面的次数有内置限制。怎么调查这个假设？

代码：我有指向底层网页的链接，并希望使用从关联网页中提取的信息构建数据框。我已经简化了我的抓取功能，因为问题仍然发生在更简单的功能上：

scrape_test = function(link) {

  slit <-  str_split(link, "/") %>%
    unlist()
  id <- slit[5]
  sem <- slit[6]

  name <- link %>% 
    read_html(encoding = "UTF-8") %>%
    html_nodes("h2") %>%
    html_text() %>%
    str_replace_all("\r\n", "") %>%
    str_trim()

  return(data.frame(id, sem, name))
}

我使用purrr-package map_df（）来迭代函数：

test.data = links %>%
  map_df(scrape_test)

现在，如果我仅使用50个链接迭代该函数，则不会收到任何错误。但是当我增加链接的数量时，我遇到了前面提到的错误。此外，我收到以下警告：

＆＃34;在bind_rows_（x，.id）中：不等的因素级别：强迫角色＆＃34;
＆＃34;关闭未使用的连接4（链接）＆＃34;

编辑：以下代码制作链接对象可用于重现我的结果：

links <- c(rep("http://karakterstatistik.stads.ku.dk/Histogram/NMAK13032E/Winter-2013/B2", 100))

Answer 1

对于大型抓取任务，我通常会进行for循环，这有助于排除故障。为输出创建一个空列表：

d <- vector("list", length(links))

这里我做一个for循环，带有tryCatch块，这样如果输出是错误，我们等待几秒钟再试一次。如果我们在五次尝试后仍然收到错误，我们还会添加一个counter进入下一个链接。另外，我们有if (!(links[i] %in% names(d)))因此，如果我们必须打破循环，我们可以跳过我们在重新启动循环时已经删除的链接。

for (i in seq_along(links)) {
  if (!(links[i] %in% names(d))) {
    cat(paste("Doing", links[i], "..."))
    ok <- FALSE
    counter <- 0
    while (ok == FALSE & counter <= 5) {
      counter <- counter + 1
      out <- tryCatch({                  
                  scrape_test(links[i])
                },
                error = function(e) {
                  Sys.sleep(2)
                  e
                }
              )
      if ("error" %in% class(out)) {
        cat(".")
      } else {
        ok <- TRUE
        cat(" Done.")
      }
    }
    cat("\n")
    d[[i]] <- out
    names(d)[i] <- links[i]
  }
}

迭代rvest scrape函数给出：＆＃34; open.connection错误（x，＆＃34; rb＆＃34;）：达到超时＆＃34;

1 个答案: