Solr& Nutch - 仅为某些网址编制索引

时间:2013-05-23 08:37:58

标签: solr nutch

我正在使用nutch 1.6进行抓取,而solr 3.6.2则用于索引已抓取的网址。 但是,我想只保留包含details的网址 我所做的是向nutch/conf/regex-urlfilter.txt添加许多(很多)过滤器。

我想知道是否有更好的解决方案,即使我应该抓取所有数据(网址),然后在Solr中仅过滤重要的一次(在Solrindex命令中)。

1 个答案:

答案 0 :(得分:1)

如果您不需要这些页面,最好从索引本身中过滤掉 但是,如果您有可以在Solr中过滤的模式,则可以使用filter queries进行过滤。