使用随机代理池匿名化我的卷曲网络抓取

时间:2014-11-23 10:50:09

标签: r web-scraping rcurl

我正在尝试使用R包构建RCurl的网络抓取工具。
一旦网站阻止我的IP,我就会下载 是否可以构建代理池,以便每次下载都使用RCurl来自不同的代理? 这是我的代码:

library(XML)
library(RCurl)
theurl <-paste("http://www.yad2.co.il/Nadlan/rent.php?City=%E9%F8%E5%F9%EC%E9%ED&Neighborhood=&HomeTypeID=&fromRooms=&untilRooms=&fromPrice=&untilPrice=&PriceType=1&FromFloor=&ToFloor=&EnterDate=&Info=",i,sep="")
url<-htmlParse(theurl)
tables <- readHTMLTable(url)
a<-tables[lapply(tables,length)>19]
a<-na.omit(as.data.frame(a[1],ncols=20))    

(我只删除了进行抓取的部分代码)

如果还有另一种方法可以在不被阻止的情况下刮掉大量数据,我会很高兴听到!

0 个答案:

没有答案