如何在mongodb中构造复合索引

时间:2012-03-28 05:47:20

标签: mongodb

我需要一些关于在mongo中创建和排序索引的建议。

我有一个包含5个属性的帖子集合:

帖子

  • 状态
  • 开始日期
  • 结束日期
  • lowerCaseTitle
  • 中将sortOrder

几乎所有帖子都具有相同的状态1,只有少数会有拒绝状态。我的所有查询都将过滤状态,开始和结束日期,并对sortOrder进行排序。我还将有一个查询在标题上进行正则表达式搜索。

我应该在{status:1,start:1,end:1,sort:1}上设置复合键吗?将字段放在复合索引中的顺序是否重要 - 我应该将状态放在复合索引中,因为它是最广泛的吗?在每个属性上做复合索引而不是单个索引是否更好? mongo只对任何给定的查询使用单个索引吗?

如果我正在对此进行正则表达式查询,那么对于lowerCaseTitle的索引是否有任何提示?

示例查询是:

db.posts.find({status: {$gte:0}, start: {$lt: today}, end: {$gt: today}}).sort({sortOrder:1})

db.posts.find( {lowerCaseTitle: /japan/, status:{$gte:0}, start: {$lt: today}, end: {$gt: today}}).sort({sortOrder:1})

1 个答案:

答案 0 :(得分:16)

在一篇文章中有很多问题;)让我按实际顺序浏览它们:

  • 每个查询最多只能使用一个索引(顶级$或子句等除外)。这包括任何排序。
  • 由于上述原因,您肯定需要一个复合索引来解决您的问题而不是单独的每个字段索引。
  • 低基数字段(因此,数据集中唯一值很少的字段)通常不应该在索引中,因为它们的选择性非常有限。
  • 复合索引中字段的顺序,复合索引中每个字段的相对方向也是如此(例如“{name:1,age:-1}”)。在mongodb.org上有很多关于复合索引和索引字段方向的文档,所以我不会在这里重复所有这些。
  • 如果排序字段位于索引中,则排序将仅使用索引,并且直接位于用于选择结果集的最后一个字段之后的索引中的字段。在大多数情况下,这将是索引的最后一个字段。

所以,你根本不应该在索引中包含状态,因为一旦索引遍历消除了基于更高基数字段的绝大多数文档,它在大多数情况下最多会留下2-3个文档,这些文档几乎没有被优化状态索引(特别是因为你提到这2-3个文档很可能具有相同的状态)。

现在,与您的案例相关的最后一个注释是,当您使用范围查询(并且您是)时,它仍然不会使用索引进行排序。您可以在测试查询后查看explain()的“scanAndOrder”值来检查这一点。如果该值存在且为true,则表示它将在内存中排序结果集(扫描和顺序),而不是直接使用索引。在您的具体情况下,这是无法避免的。

因此,您的索引应为:

db.posts.ensureIndex({start:1, end:1})

和您的查询(为了清晰起见,修改了订单,查询优化器将通过相同的执行路径运行您的原始查询,但我更喜欢首先按顺序放置索引字段):

db.posts.find({start: {$lt: today}, end: {$gt: today}, status: {$gte:0}}).sort({sortOrder:1})