我正在尝试使用R
包构建RCurl
的网络抓取工具。
一旦网站阻止我的IP,我就会下载
是否可以构建代理池,以便每次下载都使用RCurl
来自不同的代理?
这是我的代码:
library(XML)
library(RCurl)
theurl <-paste("http://www.yad2.co.il/Nadlan/rent.php?City=%E9%F8%E5%F9%EC%E9%ED&Neighborhood=&HomeTypeID=&fromRooms=&untilRooms=&fromPrice=&untilPrice=&PriceType=1&FromFloor=&ToFloor=&EnterDate=&Info=",i,sep="")
url<-htmlParse(theurl)
tables <- readHTMLTable(url)
a<-tables[lapply(tables,length)>19]
a<-na.omit(as.data.frame(a[1],ncols=20))
(我只删除了进行抓取的部分代码)
如果还有另一种方法可以在不被阻止的情况下刮掉大量数据,我会很高兴听到!