应用错误收集

是否有Lucene的HTML分析器/标记器？

时间：2011-03-11 10:35:45

标签： lucene

我想从Lucene的html中索引文本，实现这一目标的最佳方法是什么？有什么好的Contrib模块可以在Lucene中做到这一点吗？

修改
终于使用了Jericho Parser。它不会创建DOM并且易于使用。

3 个答案:

答案 0 :(得分：7)

我假设您实际上并不想索引HTML标记。如果是这种情况，您可以先使用Apache Tika从HTML中提取文本。然后你可以索引Lucene中的文本。

答案 1 :(得分：6)

我建议使用Jsoup HTML parser提取文本，然后使用Lucene。它对我有用。

答案 2 :(得分：2)

您可能还想查看/Lucene-3.0.3/src/demo，其中包含HTML解析器示例。