我在Linux上使用Nutch 1.9和Solr 4.10。我需要抓取并索引大型网站的内容,并希望使用单独的Solr核心来执行此操作。以下是Nutch配置作为cronjob的一部分...
./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1
./bin/crawl conf/core1urls crawl http://solrhost:8085/solr/core1 2
我为上面提供了一分钟的cronjob。有人可以在下面帮助我......
core0
1
的含义和core1
2
的含义是什么意思?seed.txt
和conf/core0urls
创建了单独的conf/core1urls
个文件。这是有效的,但我希望每个核心都有单独的regex-urlfilter.txt
文件,而Nutch应该检测它。请让我知道如何实现它。答案 0 :(得分:0)
您需要创建两个nutch实例来推送到不同的solr核心(或者服务器)。问题是您要使用不同的 regex-urlfilter.txt 文件。从技术上讲,您可以使用单个nutch实例来实现,但它需要您编写大量代码。因此,最简单和最简单的方法是设置两个nutch实例。
关于抓取命令参数,
./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1
此处的 1 值仅表示 core0urls 中的抓取网址。不要转到第二个深度并抓取第一次抓取生成的网址。基本上,你正在吃午饭。