标签: web-crawler nutch
我们的一个PoC使用网络抓取器/蜘蛛来填充分段数据集。在使这个平台成为一个平台时,这些蜘蛛的流量将显着增加。我注意到有些主机会阻止来自特定IP地址的数据请求,因此使用像Nutch或我们自己的蜘蛛这样的东西可能会很困难。
我们还看到许多数据聚合网站,如Indeed(用于工作/简历)。在尝试从各种来源查询RSS数据时,我们怎么能(以及他们)绕过被阻止?