使用Lucene索引zip文件

时间:2013-02-15 05:46:20

标签: java lucene

是否可以在lucene中索引压缩文件夹。如果我解压缩它的内容太大了。 如果我只是索引包含文本文件的一堆压缩文件夹, serach无法正常工作。 lucene是否可以在不提取zip文件的情况下进行索引。

1 个答案:

答案 0 :(得分:1)

Lucene只是一个搜索库,它无法“知道”每一种可能的情况 - 例如如何索引XML文档,word文件,.zip文件,切尔诺贝利核电站创建的文件等。

但Lucene为您提供the API以便将您的数据挂钩到Lucene。

如果解压缩存档文件的内容不是一个选项,您可以编写一个reads the zip file(但不会在磁盘上解压缩)的类,并将此数据提供给Lucene。

如果您的主要关注点是索引的大小,那么您无法做很多事情来减少它。但是有一些提示:

  • 尝试无需停用词的索引
  • 不存储字段,只对它们编制索引(提示:Field.Store.NO
  • 始终小写所有字词以减少字词数