我使用Lucene搜索HTML文档。我的问题是索引文件的大小增加,我有大约300-400MB大小的HTML文件,但索引运行达到.98Gb。我之所以看到原因,是因为我们有规格。就像我们为四个不同的字段索引相同的内容一样,我猜是问题(我们使用相同的内容,一个区分大小写,另一个区别,一个区分大小写,特殊字符和其他字段)。
有没有办法减少索引的大小?保持相同的要求?是否有不同的方式我们索引相同的方式并以不同的方式搜索以支持所有?
答案 0 :(得分:1)
我认为你的问题是你存储这些字段而不是仅仅索引它们。因此解决方案是:不要存储它们。