爬虫分布在不同的地理位置

时间:2011-07-03 20:20:41

标签: python web-crawler nutch

我在不同的地理位置有几台台式机。我需要在每台桌面计算机和中央服务器上创建一个带有客户端的爬虫程序,在该服务器上对数据进行索引是否有可能在Nutch中创建这样的爬虫?有没有其他选择。基于Python的抓取工具更可取。

1 个答案:

答案 0 :(得分:1)

如果您使用Nutch like buffer建议,Nutch Wiki上有一个脚本可以帮助您。在执行此操作之前,您只需要将linkdb,crawldb和段从每个系统获取到中央服务器 - 我认为在索引过程中尝试远程访问这些资源需要很长时间。