我想从Lucene的html中索引文本,实现这一目标的最佳方法是什么? 有什么好的Contrib模块可以在Lucene中做到这一点吗?
修改
终于使用了Jericho Parser。它不会创建DOM并且易于使用。
答案 0 :(得分:7)
我假设您实际上并不想索引HTML标记。如果是这种情况,您可以先使用Apache Tika从HTML中提取文本。然后你可以索引Lucene中的文本。
答案 1 :(得分:6)
我建议使用Jsoup HTML parser提取文本,然后使用Lucene。它对我有用。
答案 2 :(得分:2)
您可能还想查看/Lucene-3.0.3/src/demo,其中包含HTML解析器示例。