我如何估计Lucene指数的大小?

时间:2008-09-15 18:24:47

标签: lucene

是否有一个已知的数学公式可用于估算新Lucene指数的大小?我知道我想要索引多少个字段,以及每个字段的大小。而且,我知道将索引多少项目。那么,一旦这些由Lucene处理,它如何转换成字节?

3 个答案:

答案 0 :(得分:2)

这是lucene index format documentation。 主要文件是复合索引(.cfs文件)。 如果您有术语统计信息,则可以估算.cfs文件大小, 请注意,这取决于您使用的分析器以及您定义的字段类型。

答案 1 :(得分:1)

索引存储每个“标记”或文本字段等,仅存储一次......因此大小取决于被索引的材料的性质。添加到存储的任何内容。一种好的方法可能是采样并对其进行索引,并使用它来推断出完整的源集合。但是,索引大小与源大小的比率也会随着时间的推移而降低,因为索引中的单词已经存在,因此您可能希望使样本占原始大小的正常百分比。

答案 2 :(得分:0)

我认为它还必须考虑每个术语的频率(即同一个术语的10,000份索引的索引应远小于10,000个完全唯一术语的索引)。

此外,对于您是否使用术语向量,可能存在很小的依赖性,当然,无论您是否存储字段。你能提供更多细节吗?你能分析源数据的术语频率吗?