标签: lucene
我正在尝试开发一个检查HTML页面中单词密度的应用程序。我熟练掌握Java,但我从未使用过Lucene。您是否认为将Lucene用于此目的是可行的?或HTML页面中包含的标记元素会导致搜索效率低下吗?任何建议都是受欢迎的! 谢谢!
答案 0 :(得分:1)
剥离HTML标记并仅对内容编制索引是明智的。之前在SO中有already been discussed。我建议使用JSoup(我们将它用于其他目的,但对它非常满意;它也在引用的SO帖子中提到)但是YMMV。