在多个solr索引之间共享已爬行的nutch数据

时间:2014-12-19 13:48:26

标签: solr web-crawler search-engine nutch

我们有成千上万的solr索引/集合共享由nutch抓取的页面。

目前,这些页面被多次抓取,每次包含它们的solr索引一次。

可以抓取这些网站一次,并在索引之间共享抓取数据吗?

可能通过检查现有的crawldbs是否已经爬网并从中获取数据进行解析和索引。

或者一次抓取所有网站,然后有选择地将抓取数据提交到每个索引。 (例如:每个网段一个网站,但不确定如何识别哪个网段属于哪个网站由于网段名称是数字而来)

任何想法或帮助表示赞赏:)

1 个答案:

答案 0 :(得分:1)

你需要编写一个新的索引器插件来做到这一点;看看Nutch的SolrIndexer,了解如何编写新的索引器。在该索引器中,您应该执行以下操作:

  1. 定义三个或四个Solr服务器实例,每个核心一个。
  2. 在索引器的write方法内部,检查文档的类型,并使用正确的Solr核心来添加文档。在右边,您应该在Nutch有一个字段,您可以使用该字段来确定文档的发送位置。