应用错误收集

使用您自己的网络抓取工具和数据蜘蛛 - 如何避免被阻止？

时间：2016-09-05 13:19:24

标签： web-crawler nutch

我们的一个PoC使用网络抓取器/蜘蛛来填充分段数据集。在使这个平台成为一个平台时，这些蜘蛛的流量将显着增加。我注意到有些主机会阻止来自特定IP地址的数据请求，因此使用像Nutch或我们自己的蜘蛛这样的东西可能会很困难。

我们还看到许多数据聚合网站，如Indeed（用于工作/简历）。在尝试从各种来源查询RSS数据时，我们怎么能（以及他们）绕过被阻止？

0 个答案:

没有答案