我正在使用nutt 1.15和solr 7.5,并且需要索引多个内核。我为每个核心创建了单独的crawldb和linkdb,然后使用多个作者(每个writer_id与相应的核心名称匹配)更新了index-writers.xml。另外,param name =“ url”指向每个solr内核,但是由于没有地方可以传递用于指示writer id或solr内核的参数,因此bin / nutch index命令针对所有内核索引特定的crawldb。当然,我只需要将crawldb1索引到core1。
有关解决此问题的任何建议?
谢谢。
答案 0 :(得分:0)
您可以使用JEXL exchange将文档从同一爬网内路由到不同的索引编写器。这样一来,您就可以将文档路由到不同的Solr内核(每个内核一个索引编写器,并具有不同的编写器ID。
这将允许您运行1个Nutch实例,以对所有感兴趣的域进行爬网。我假设您还可以根据已爬网文档中存在的某些属性(URL,标题等)来路由文档。