Question

我生成包含菜单和内容部分的html文档。然后我想提取这些文档的内容以将其提供给lucene索引。但是，我想从内容提取中排除菜单，因此只对内容编制索引。

<div class="menu">my menu goes here</div>
<div class="content">my content goes here</div>

使用apache tika实现这一目标的最简单方法是什么？

Answer 1

作为一个更通用的解决方案（不仅仅是针对您的特定菜单），我建议您查看boilerpipe处理从页面中删除不感兴趣的部分（菜单，导航等）。

我知道can be integrated in Solr/tika，看看你可能可以将它集成到你的场景中。

Answer 2

查看this post，指定在HTML解析期间如何处理DIV，指定它们是否可以安全解析，在这种情况下忽略它。对于你的问题，你可以在覆盖方法中有一些逻辑，它只忽略属性值为“menu”的DIV元素（即告诉TIKA解析器这个DIV解析不安全）。

Answer 3

您可以使用解析器将html解析为xhtml dom对象，并删除包含属性class =“menu”的div标记。