索引文档

时间:2011-03-01 20:03:12

标签: java html lucene indexing

如果我想在java中索引一个文档(HTML)并计算索引的数量,Lucene的方法是什么?我觉得Lucene只是一个搜索引擎。

非常感谢

2 个答案:

答案 0 :(得分:4)

是的!我做了这件事。我使用JSOUP和Lucene来获取HTML页面来索引内容。 JSOUP是一个类似jQuery的库,除了java。所以我能够得到div我想索引并得到所有文本。如果你愿意,我可以分享例子。你有什么疑问,也许我可以帮助你?

修改:以下是我之前做过的项目示例https://github.com/amir20/iAuthor/blob/master/wikitool/src/main/java/edu/gwu/raminfar/iauthor/wikitool/WikiTool.java#L180

如果您想要真正的索引服务,它的效果非常好。如果您只想将HTML存储在数据库中,那么Lucene可能不是您的选择。

答案 1 :(得分:1)

嗯,是的 - Lucene是一个搜索引擎。 (更确切地说:它是一个允许您构建搜索引擎的库)。要获得搜索引擎,您需要一个文本索引,Lucene也提供了这个。它是一个非常强大的工具 - 它包含stemmers用于英语和其他一些语言,根据我的经验,即使有大量数据,它也能快速运行。

Lucene不会为您解析HTML,因此您需要在将文本放入索引之前执行此操作。