我们正在使用Nutch 2.1和solr 4.8.1,并希望从解析结果中删除页眉和页脚。 我们尝试过元素选择器插件(https://github.com/kaqqao/nutch-element-selector)来删除页眉和页脚,但我们的搜索结果没有效果。
任何人都可以帮忙解决这个问题。
提前致谢。
答案 0 :(得分:0)
在nutch site.xml中添加此内容
<!-- tika properties to use BoilerPipe, according to Marcus Jelsma -->
<property>
<name>tika.use_boilerpipe</name>
<value>true</value>
</property>
<property>
<name>tika.boilerpipe.extractor</name>
<value>ArticleExtractor</value>
</property>
这不会完全删除页眉和页脚,但它会在删除页面中主要文章以外的内容方面做得不错。
如果您不满意,可以使用https://code.google.com/p/boilerpipe/
等其他样板