是否有Lucene的HTML分析器/标记器?

时间:2011-03-11 10:35:45

标签: lucene

我想从Lucene的html中索引文本,实现这一目标的最佳方法是什么? 有什么好的Contrib模块可以在Lucene中做到这一点吗?

修改
终于使用了Jericho Parser。它不会创建DOM并且易于使用。

3 个答案:

答案 0 :(得分:7)

我假设您实际上并不想索引HTML标记。如果是这种情况,您可以先使用Apache Tika从HTML中提取文本。然后你可以索引Lucene中的文本。

答案 1 :(得分:6)

我建议使用Jsoup HTML parser提取文本,然后使用Lucene。它对我有用。

答案 2 :(得分:2)

您可能还想查看/Lucene-3.0.3/src/demo,其中包含HTML解析器示例。