使用RVest的页面限制

时间:2018-10-14 01:25:01

标签: r web-scraping rvest

使用rvest从Wiki抓取466页时出现问题。每个页面代表一个指标,我需要进一步了解。我有以下代码循环遍历每个链接(从csv文件加载),并从每个页面的html表中提取所需的信息。

Metrics <- read.csv("C:\\Users\\me\\Documents\\WebScraping\\LONMetrics.csv")

    Metrics$Theme <- as.character(paste0(Metrics$Theme))
    Metrics$Metric <- as.character(paste0(Metrics$Metric))
    Metrics$URL <- as.character(paste0(Metrics$URL))

    n = nrow(Metrics)

    i = 1

    while (i <= n) {
      webPage <- read_html(Metrics$URL[i])
      pageTable <- html_table(webpage)
      Metrics$Definition[i] <- pageTable[[1]]$X2[1]
      Metrics$Category[i] <- pageTable[[1]]$X2[2]
      Metrics$Calculation[i] <- pageTable[[1]]$X2[3]
      Metrics$UOM[i] <- pageTable[[1]]$X2[4]
      Metrics$ExpectedTrend[i] <- pageTable[[1]]$X2[6]
      Metrics$MinTech[i] <- pageTable[[1]]$X2[7]
      i = i+1
    }

我遇到的问题是它在32页给出错误后停止返回数据:

  

read_connection_(x,n)中的错误:
  评估错误:从对等方接收数据时失败

我想知道原因可能是什么,以及如何解决这个看似有限的问题?

谢谢。

Rob

0 个答案:

没有答案