SOLR(Lucene)索引与所有倒置索引一样,使用术语词典为每个术语分配索引。索引中的每个字段都会生成自己的术语字典(可以在SOLR管理工具中进行检查)。
我有一个非常大的SOLR索引,其中每个文档都有很多文本字段。所有字段都包含类似分布的英文文本。
在我的情况下,这是非常浪费的:它维护了许多非常大的术语词典(在内存中)几乎都是相同的......随着文档中(不同)术语的数量增长,这些词典变得非常大。 / p>
我无法将所有字段合并到一个搜索字段中,因为我需要运行限制在特定字段上的查询。
有没有办法告诉SOLR 对多个字段使用相同的术语词典?
(事后补充:但也许如果术语遵循拉链分布,那么字段之间的共享量无论如何都不会很大,因为许多术语只出现一次,因此只出现在一个字典中?)