我一直在使用Nutch + Solr(4.3.0)来索引网站,并使用Nutch提供的schema.xml。
我的问题是,当我进行包含我的标题或菜单中出现的一些单词的搜索时,Solr显然会响应所有页面。
我想要的是从索引中删除这些HTML块,以便搜索不包括那些“误报”。
我正在尝试类似的事情:
<charFilter class="solr.PatternReplaceCharFilterFactory"
pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />
应用于我的内容fieldType的索引分析器,是“HEADER STARTS / ENDS”HTML注释,但似乎根本没有效果。
我找不到更好的谷歌搜索...但我是这个技术堆栈的真正新手。
欢迎任何帮助!
感谢!!!
答案 0 :(得分:2)
您可以查看boilerpipe。它是一个特别适合该问题的java库。我在一个项目中使用效果很好,但我用普通的Lucene。对于Solr集成,有an open issue
答案 1 :(得分:1)
已经提交的NUTCH-585应该是主干和最新的Nutch版本可以满足您的需求。