使用tika从内容提取中排除菜单

时间:2014-01-15 12:20:37

标签: lucene html-parsing apache-tika

我生成包含菜单和内容部分的html文档。然后我想提取这些文档的内容以将其提供给lucene索引。但是,我想从内容提取中排除菜单,因此只对内容编制索引。

<div class="menu">my menu goes here</div>
<div class="content">my content goes here</div>

使用apache tika实现这一目标的最简单方法是什么?

3 个答案:

答案 0 :(得分:3)

作为一个更通用的解决方案(不仅仅是针对您的特定菜单),我建议您查看boilerpipe处理从页面中删除不感兴趣的部分(菜单,导航等)。

我知道can be integrated in Solr/tika,看看你可能可以将它集成到你的场景中。

答案 1 :(得分:1)

查看this post,指定在HTML解析期间如何处理DIV,指定它们是否可以安全解析,在这种情况下忽略它。对于你的问题,你可以在覆盖方法中有一些逻辑,它只忽略属性值为“menu”的DIV元素(即告诉TIKA解析器这个DIV解析不安全)。

答案 2 :(得分:0)

您可以使用解析器将html解析为xhtml dom对象,并删除包含属性class =“menu”的div标记。