我有以下设置:
导入CSV文件(20GB),包含9000万行 - > MongoDB中的数据需要9GB - > “2d”列上的索引 - >用于分片的附加整数列索引 - >使用1,2,4,6,8,16个分片分发数据。 群集中的每个分片机都有20GB的磁盘空间和2GB的RAM。
我生成了一个随机查询,并对每个群集配置的执行时间进行了基准测试(参见附件)。
现在我的问题: 使用1,2,4,6和8个分片,我发现运行时或多或少线性减少,如预期的那样。有了8个分片,我会假设在每个分片上我的数据都适合内存。因此我认为从8个分片到16个分片没有任何改进。 但是根据我的基准测试,我观察到运行时非常强烈的次线性减少。 你知道如何解释这种行为吗?对本手册的任何建议或参考都非常感谢!
提前致谢, 莉迪亚