使用rvest从Wiki抓取466页时出现问题。每个页面代表一个指标,我需要进一步了解。我有以下代码循环遍历每个链接(从csv文件加载),并从每个页面的html表中提取所需的信息。
Metrics <- read.csv("C:\\Users\\me\\Documents\\WebScraping\\LONMetrics.csv")
Metrics$Theme <- as.character(paste0(Metrics$Theme))
Metrics$Metric <- as.character(paste0(Metrics$Metric))
Metrics$URL <- as.character(paste0(Metrics$URL))
n = nrow(Metrics)
i = 1
while (i <= n) {
webPage <- read_html(Metrics$URL[i])
pageTable <- html_table(webpage)
Metrics$Definition[i] <- pageTable[[1]]$X2[1]
Metrics$Category[i] <- pageTable[[1]]$X2[2]
Metrics$Calculation[i] <- pageTable[[1]]$X2[3]
Metrics$UOM[i] <- pageTable[[1]]$X2[4]
Metrics$ExpectedTrend[i] <- pageTable[[1]]$X2[6]
Metrics$MinTech[i] <- pageTable[[1]]$X2[7]
i = i+1
}
我遇到的问题是它在32页给出错误后停止返回数据:
read_connection_(x,n)中的错误:
评估错误:从对等方接收数据时失败
我想知道原因可能是什么,以及如何解决这个看似有限的问题?
谢谢。
Rob