我通过lucene库搜索估算索引时间,索引大小,搜索时间的方法。
我有500个文件的编号,我想估算5000个文件的值。
我在网上搜索,我没有找到任何估计这些数字的好方法。
答案 0 :(得分:0)
答案很大程度上取决于你对索引的投入。显然,如果你存储完整的字段内容,那么你可以预期至少线性增长,因子在1个数量级之内。如果你只索引这些术语,你将需要更少的空间,但同时估计将变得更加困难。例如,唯一索引术语的数量是非常重要的因素。这可能会在某些数字上开始趋于平稳,这个数字在很大程度上取决于您的内容细节。总而言之,在这种情况下,测量可能是您唯一可靠的方法。