使用Lucene索引文件

时间:2011-10-23 12:17:20

标签: java apache search lucene indexing

我有一组具有不同扩展名的文件.doc .txt .html等。

如何将这些文件编入索引以用于Apache Lucene?

4 个答案:

答案 0 :(得分:2)

您可以先使用apache POI库从中提取文本,然后使用此处提供的代码对其进行索引: Apache Lucene-Use lucene 3.4.0 to index text files

答案 1 :(得分:1)

Lucene不容易上手。阅读一本书可能有点过头了,但我开始使用Lucene阅读Lucene in Action中的几章。

答案 2 :(得分:1)

对于索引富文档,您需要Apache Lucene和Apache Tika的组合 如果您正在使用lucene,则需要使用Tika库解析文件并将内容传递给lucene以进行索引。

Apache Tika允许轻松提取apis,执行文件类型检测工作以及从文件中检索内容和其他属性。

你应该在这些上找到example

答案 3 :(得分:0)

您使用Apache Tika之类的东西从中提取文本。您可能会发现使用Apache Solr而不是原始lucene更容易。