应用错误收集

如何运行nutch的多个实例？

时间：2013-07-08 12:19:26

标签： nutch

我想通过同时运行apache nutch-1.6的多个实例来抓取多个网站。我应该在不同的位置安装apache nutch的多个副本，并为每个副本创建一个（或主）.sh文件来执行nutch crawl命令吗？或者是否可以为多个实例配置nutch的单个副本？

1 个答案:

答案 0 :(得分：0)

我使用了＆＃39; bin / crawl＆＃39;脚本。同时将它放在2个不同的终端中。两人都完成了他们的执行没有任何错误（根据我的判断至少）。 我为每个同步实例提供了不同的种子目录和抓取目录。

然而，根据另一个thread here，它表明你必须通过提供不同的配置来运行bin / nutch命令。每次要运行不同的并发实例并为每个实例提供不同的/ tmp / path时，都会生成文件。我自己也不必经历那个麻烦。上面的方法对我来说效果很好