Question

我一直在使用Nutch + Solr（4.3.0）来索引网站，并使用Nutch提供的schema.xml。

我的问题是，当我进行包含我的标题或菜单中出现的一些单词的搜索时，Solr显然会响应所有页面。

我想要的是从索引中删除这些HTML块，以便搜索不包括那些“误报”。

我正在尝试类似的事情：

<charFilter class="solr.PatternReplaceCharFilterFactory" 
      pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

应用于我的内容fieldType的索引分析器，是“HEADER STARTS / ENDS”HTML注释，但似乎根本没有效果。

我找不到更好的谷歌搜索...但我是这个技术堆栈的真正新手。

欢迎任何帮助！

感谢!!!

Answer 1

您可以查看boilerpipe。它是一个特别适合该问题的java库。我在一个项目中使用效果很好，但我用普通的Lucene。对于Solr集成，有an open issue

Answer 2

已经提交的NUTCH-585应该是主干和最新的Nutch版本可以满足您的需求。