我们有成千上万的solr索引/集合共享由nutch抓取的页面。
目前,这些页面被多次抓取,每次包含它们的solr索引一次。
可以抓取这些网站一次,并在索引之间共享抓取数据吗?
可能通过检查现有的crawldbs是否已经爬网并从中获取数据进行解析和索引。
或者一次抓取所有网站,然后有选择地将抓取数据提交到每个索引。 (例如:每个网段一个网站,但不确定如何识别哪个网段属于哪个网站由于网段名称是数字而来)
任何想法或帮助表示赞赏:)
答案 0 :(得分:1)
你需要编写一个新的索引器插件来做到这一点;看看Nutch的SolrIndexer,了解如何编写新的索引器。在该索引器中,您应该执行以下操作: