MongoDB在'_id'上没有使用复合索引

时间:2013-08-22 18:41:52

标签: mongodb query-optimization pymongo

我在MongoDB中有一个集合,其中包含以下文档。

/* 0 */
{
    "T" : [ 
        374135056604448742
    ],
    "_id" : {
        "#" : 7778532275691,
        "ts" : ISODate("2013-07-26T02:25:00Z")
    }
}

/* 1 */
{
    "T" : [ 
        1056188940167152853
    ],
    "_id" : {
        "#" : 34103385525388,
        "ts" : ISODate("2013-07-30T03:00:00Z")
    }
}

/* 2 */
{
    "T" : [ 
        1056188940167152853
    ],
    "_id" : {
        "#" : 34103385525388,
        "ts" : ISODate("2013-07-30T03:18:00Z")
    }
}

现在,我正在尝试使用以下查询查询某些文档。

db.entries.find({
    '_id.ts': {'$gte': beginTS, '$lte': endTS}, 
    '_id.#' : 884327843395156951
    }).hint([('_id', 1)]).explain()

根据我的理解,由于_id是一个复合字段,并且Mongo总是在_id上维护一个索引,因此为了回答上述查询,Mongo应该使用'_id'上的索引。但是,上述查询的答案如下:

{u'allPlans': [{u'cursor': u'BtreeCursor _id_',
   u'indexBounds': {u'_id': [[{u'$minElement': 1}, {u'$maxElement': 1}]]},
   u'n': 2803,
   u'nscanned': 4869528,
   u'nscannedObjects': 4869528}],
 u'cursor': u'BtreeCursor _id_',
 u'indexBounds': {u'_id': [[{u'$minElement': 1}, {u'$maxElement': 1}]]},
 u'indexOnly': False,
 u'isMultiKey': False,
 u'millis': 128415,
 u'n': 2803,
 u'nChunkSkips': 0,
 u'nYields': 132,
 u'nscanned': 4869528,
 u'nscannedAllPlans': 4869528,
 u'nscannedObjects': 4869528,
 u'nscannedObjectsAllPlans': 4869528,
 u'scanAndOrder': False,

正如可以看到的那样,MongoDB正在对DB进行整个扫描,以找到少量文档。我不知道这里到底出了什么问题。

我尝试更改查询顺序,但结果相同。我不知道这里发生了什么。任何帮助,如果深深感激。

更新

我理解这里的细微差别。 _id不是复合索引,它只是一个确切的索引。这意味着如果_id是一个文档,那么无论文档的结构和它可能具有多少嵌套的attrs或子文档,_id索引将只包含一个_id字段的条目。此条目假定为_id文档的哈希值,并将保持唯一。

1 个答案:

答案 0 :(得分:4)

您正在使用某个对象作为密钥,但您在> 时使用的是compund index

_id索引有点特殊,因为它是自动创建的,并且始终是唯一的。通常,_id索引是ObjectIdUUID或者integer或包含某种哈希的字符串。 MongoDB支持复杂对象作为键。但是,对于MongoDB,这仍然只是一个文档。它可以与其他文档进行比较,具有相同字段和值的文档将是相同的。但由于您没有创建索引键(并且您无法手动创建该索引),因此MongoDB不知道它包含字段#和字段ts

另一方面,复合索引明确地指代文档的字段,例如, {"product.quantity" : 1, "product.created" : -1}。必须在创建索引时指定。

您似乎在尝试基本上在主键中存储时间戳。 MongoDB的ObjectId已包含时间戳,因此您可以直接在ObjectIds上进行基于日期的范围查询。