如何在使用nutch和solr进行爬网或索引时从html中删除菜单

时间:2014-10-29 11:23:14

标签: solr nutch

我们正在使用Nutch 2.1和solr 4.8.1,并希望从解析结果中删除页眉和页脚。 我们尝试过元素选择器插件(https://github.com/kaqqao/nutch-element-selector)来删除页眉和页脚,但我们的搜索结果没有效果。

任何人都可以帮忙解决这个问题。

提前致谢。

1 个答案:

答案 0 :(得分:0)

在nutch site.xml中添加此内容

<!-- tika properties to use BoilerPipe, according to Marcus Jelsma --> 
<property> 
  <name>tika.use_boilerpipe</name> 
  <value>true</value> 
</property> 
<property> 
  <name>tika.boilerpipe.extractor</name> 
  <value>ArticleExtractor</value> 
</property> 

这不会完全删除页眉和页脚,但它会在删除页面中主要文章以外的内容方面做得不错。

如果您不满意,可以使用https://code.google.com/p/boilerpipe/

等其他样板