使用Lucene在HTML文档中搜索单词

时间:2014-03-23 17:20:25

标签: lucene


我正在尝试开发一个检查HTML页面中单词密度的应用程序。我熟练掌握Java,但我从未使用过Lucene。您是否认为将Lucene用于此目的是可行的?或HTML页面中包含的标记元素会导致搜索效率低下吗?任何建议都是受欢迎的!
谢谢!

1 个答案:

答案 0 :(得分:1)

剥离HTML标记并仅对内容编制索引是明智的。之前在SO中有already been discussed。我建议使用JSoup(我们将它用于其他目的,但对它非常满意;它也在引用的SO帖子中提到)但是YMMV。