Question

我在Linux上使用Nutch 1.9和Solr 4.10。我需要抓取并索引大型网站的内容，并希望使用单独的Solr核心来执行此操作。以下是Nutch配置作为cronjob的一部分...

./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1
./bin/crawl conf/core1urls crawl http://solrhost:8085/solr/core1 2

我为上面提供了一分钟的cronjob。有人可以在下面帮助我......

我想了解core0 1的含义和core1 2的含义是什么意思？
我使用seed.txt和conf/core0urls创建了单独的conf/core1urls个文件。这是有效的，但我希望每个核心都有单独的regex-urlfilter.txt文件，而Nutch应该检测它。请让我知道如何实现它。
如果在单个Nutch中无法实现上述目标，我应该为每个Solr核心设置单独的Nutch实例吗？

Answer 1

您需要创建两个nutch实例来推送到不同的solr核心（或者服务器）。问题是您要使用不同的 regex-urlfilter.txt 文件。从技术上讲，您可以使用单个nutch实例来实现，但它需要您编写大量代码。因此，最简单和最简单的方法是设置两个nutch实例。

关于抓取命令参数，

./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1

此处的 1 值仅表示 core0urls 中的抓取网址。不要转到第二个深度并抓取第一次抓取生成的网址。基本上，你正在吃午饭。