标签: solr nutch
我正在使用nutch 1.6进行抓取,而solr 3.6.2则用于索引已抓取的网址。 但是,我想只保留包含details的网址 我所做的是向nutch/conf/regex-urlfilter.txt添加许多(很多)过滤器。
details
nutch/conf/regex-urlfilter.txt
我想知道是否有更好的解决方案,即使我应该抓取所有数据(网址),然后在Solr中仅过滤重要的一次(在Solrindex命令中)。
Solrindex
答案 0 :(得分:1)
如果您不需要这些页面,最好从索引本身中过滤掉 但是,如果您有可以在Solr中过滤的模式,则可以使用filter queries进行过滤。