我想通过同时运行apache nutch-1.6的多个实例来抓取多个网站。我应该在不同的位置安装apache nutch的多个副本,并为每个副本创建一个(或主).sh文件来执行nutch crawl命令吗?或者是否可以为多个实例配置nutch的单个副本?
答案 0 :(得分:0)
我使用了' bin / crawl'脚本。同时将它放在2个不同的终端中。两人都完成了他们的执行没有任何错误(根据我的判断至少)。 我为每个同步实例提供了不同的种子目录和抓取目录。
然而,根据另一个thread here,它表明你必须通过提供不同的配置来运行bin / nutch命令。每次要运行不同的并发实例并为每个实例提供不同的/ tmp / path时,都会生成文件。我自己也不必经历那个麻烦。上面的方法对我来说效果很好