请求改进代码以下载URL序列

时间:2014-07-03 18:05:37

标签: r rcurl

在一个文件中我有一个23,772个URL表,我需要下载。在下面的代码中,由dwsites表示。由于服务器的限制,我一次只能下载300个网站的块。我已经使用下面的代码完成了这项任务(它是实际代码的摘录),但我想知道更好的方法。

你能提出任何建议吗?

谢谢。

dwsites <- data.frame(sites = c(1:23772), url = rep("url", 23772))

dwsitessub <- dwsites[1:300,] # this is the part that I would like to change
curl = getCurlHandle()
pagesnew = list()
for(u in strpatnew) {pagesnew[[u]] = getURLContent(u, curl = curl)}
lapply(seq_along(strpatternew), function(u) cat(pagesnew[[u]], file = file.path("filepath", paste0(strpatternew[[u]], sep = ""))))

dwsitessub <- dwsites[301:459,]
curl = getCurlHandle()
pagesnew = list()
for(u in strpatnew) {pagesnew[[u]] = getURLContent(u, curl = curl)}
lapply(seq_along(strpatternew), function(u) cat(pagesnew[[u]], file = file.path("filepath", paste0(strpatternew[[u]], sep = ""))))

...

dwsitessub <- 23501:nrow(dwsites)
curl = getCurlHandle()
pagesnew = list()
for(u in strpatnew) {pagesnew[[u]] = getURLContent(u, curl = curl)}
lapply(seq_along(strpatternew), function(u) cat(pagesnew[[u]], file = file.path("filepath", paste0(strpatternew[[u]], sep = ""))))

0 个答案:

没有答案