我有一组具有不同扩展名的文件.doc .txt .html等。
如何将这些文件编入索引以用于Apache Lucene?
答案 0 :(得分:2)
您可以先使用apache POI库从中提取文本,然后使用此处提供的代码对其进行索引: Apache Lucene-Use lucene 3.4.0 to index text files
答案 1 :(得分:1)
Lucene不容易上手。阅读一本书可能有点过头了,但我开始使用Lucene阅读Lucene in Action中的几章。
答案 2 :(得分:1)
对于索引富文档,您需要Apache Lucene和Apache Tika的组合 如果您正在使用lucene,则需要使用Tika库解析文件并将内容传递给lucene以进行索引。
Apache Tika允许轻松提取apis,执行文件类型检测工作以及从文件中检索内容和其他属性。
你应该在这些上找到example。
答案 3 :(得分:0)
您使用Apache Tika之类的东西从中提取文本。您可能会发现使用Apache Solr而不是原始lucene更容易。