应用错误收集

solr 7.5的多核1.15索引多核

时间：2018-12-20 19:08:42

标签： indexing solr nutch

我正在使用nutt 1.15和solr 7.5，并且需要索引多个内核。我为每个核心创建了单独的crawldb和linkdb，然后使用多个作者（每个writer_id与相应的核心名称匹配）更新了index-writers.xml。另外，param name =“ url”指向每个solr内核，但是由于没有地方可以传递用于指示writer id或solr内核的参数，因此bin / nutch index命令针对所有内核索引特定的crawldb。当然，我只需要将crawldb1索引到core1。

有关解决此问题的任何建议？

谢谢。

1 个答案:

答案 0 :(得分：0)

您可以使用JEXL exchange将文档从同一爬网内路由到不同的索引编写器。这样一来，您就可以将文档路由到不同的Solr内核（每个内核一个索引编写器，并具有不同的编写器ID。

这将允许您运行1个Nutch实例，以对所有感兴趣的域进行爬网。我假设您还可以根据已爬网文档中存在的某些属性（URL，标题等）来路由文档。