我有什么:
我需要什么:
我该怎么做:
require(rvest)
files <- list.files(file.path(getwd(), "data"), full.names = TRUE, recursive = TRUE, pattern = "index")
downloadedLinks <- c()
for (i in 1:length(files)) {
currentFile <- files[i]
pg <- read_html(currentFile, encoding = "UTF-8")
fileLink <- html_nodes(pg, xpath=".//link[@rel='canonical']") %>% html_attr("href")
downloadedLinks <- c(downloadedLinks, fileLink)
}
我在40,000页上运行此代码并获得此结果:
这意味着在服务器1上处理380,000页需要7600秒或 126分钟,在服务器2上处理 9500秒或158分钟
因此,我几乎没有问题,希望社区能帮助我。我很乐意听到任何想法,建议或批评。