设置某种计时器以避免网页抓取时检测是否重要?

时间:2011-05-29 00:57:23

标签: web-scraping

为了获得一些有关市场的统计数据,我设立了一个程序,试图对房地产网站进行一些搜索。

我的程序可能会调用该网站约150次。我想每天做一次。我认为网络足够大,他们每天可能会获得大约10,000 - 20,000次点击(估计)。

但如果我把这些全部发送到一起,他们会认为他们的请求充斥着他们吗?他们会注意到我是网络抓取并阻止我的IP吗?

如果是这样,设置计时器是否重要?此刻,我已经把一个计时器在每次通话前等待3到5秒,如果有必要,我只是打电话。

2 个答案:

答案 0 :(得分:2)

如果他们想要刮刀,它肯定会脱颖而出。每天有10000-20000次点击,平均每4到9秒就有一次点击。你会在每个实际请求之间推动~2次点击,并且如此短的间隔,过滤掉你的请求并不困难。

要做的更安全和礼貌的事情是在整个24小时内设置刮擦,所以将间隔设置为~10分钟。它不会给它们带来显着的负载差异(不是150个请求应该做的事情),并且随着请求变得更加普遍,它将更难以确定点。

答案 1 :(得分:1)

我同意尼克拉斯的观点。但是,如果您需要“更快”的数据,我将使用60(最多120)秒的超时。对于当前大多数服务器而言,这对您描述的流量大小都有好处。 另外,为了做好事,请确保您遵循robots.txt定义并查看是否存在一些限制(就超时和路线而言)。