使用您自己的网络抓取工具和数据蜘蛛 - 如何避免被阻止?

时间:2016-09-05 13:19:24

标签: web-crawler nutch

我们的一个PoC使用网络抓取器/蜘蛛来填充分段数据集。在使这个平台成为一个平台时,这些蜘蛛的流量将显着增加。我注意到有些主机会阻止来自特定IP地址的数据请求,因此使用像Nutch或我们自己的蜘蛛这样的东西可能会很困难。

我们还看到许多数据聚合网站,如Indeed(用于工作/简历)。在尝试从各种来源查询RSS数据时,我们怎么能(以及他们)绕过被阻止?

0 个答案:

没有答案