Lucene以不同的文件格式搜索查询

时间:2014-05-31 14:38:08

标签: apache lucene

我在Windows 7上使用Apache的Lucene 3.0.3。我能够在给定任何文件扩展名的情况下成功索引文件(.doc,.ppt,.pdf,.txt ,. rtf等)。但是,我只能从索引的文本文档中搜索任何口语人类语言(印度语/外语)中的单词,而不能从索引的Word / Powerpoint / PDF文档中搜索单词。为什么是这样? Lucene可以直接这样做吗?

我是否需要使用更高版本的Lucene?我很清楚Lucene 4.8.1。我是否需要使用它来完成上述任务,或者Lucene 3无法实现相同的目标?

1 个答案:

答案 0 :(得分:0)

Lucene不解释内容。它为您提供的内容编制索引并使其可搜索。如果你把二进制垃圾交给它,它会愉快地将它编入索引并使其可搜索,它只是不能通过人类语言搜索。 .doc,.ppt,.pdf和.rtf格式不是纯文本格式,因此只需读取并直接将它们放入lucene就不能很好地索引。

您需要从文档中提取内容,以便有意义地搜索它们。我建议使用Tika