Question

我知道无法删除mongodb集合中的_id字段。但是，我的集合的大小很大，_id字段上的索引阻止我加载RAM中的其他索引。我的机器有125GB的RAM，我的收集统计数据如下：

 db.call_records.stats()
{
    "ns" : "stc_cdrs.call_records",
    "count" : 1825338618,
    "size" : 438081268320,
    "avgObjSize" : 240,
    "storageSize" : 468641284752,
    "numExtents" : 239,
    "nindexes" : 3,
    "lastExtentSize" : 2146426864,
    "paddingFactor" : 1,
    "systemFlags" : 0,
    "userFlags" : 1,
    "totalIndexSize" : 165290709024,
    "indexSizes" : {
        "_id_" : 73450862016,
        "caller_id_1" : 45919923504,
        "receiver_id_1" : 45919923504
    },
    "ok" : 1
}

当我执行如下查询时：

db.call_records.find({ "$or" : [ { "caller_id": 125091840205 }, { "receiver_id" : 125091840205 } ] }).explain()
{
    "clauses" : [
        {
            "cursor" : "BtreeCursor caller_id_1",
            "isMultiKey" : false,
            "n" : 401,
            "nscannedObjects" : 401,
            "nscanned" : 401,
            "scanAndOrder" : false,
            "indexOnly" : false,
            "nChunkSkips" : 0,
            "indexBounds" : {
                "caller_id" : [
                    [
                        125091840205,
                        125091840205
                    ]
                ]
            }
        },
        {
            "cursor" : "BtreeCursor receiver_id_1",
            "isMultiKey" : false,
            "n" : 383,
            "nscannedObjects" : 383,
            "nscanned" : 383,
            "scanAndOrder" : false,
            "indexOnly" : false,
            "nChunkSkips" : 0,
            "indexBounds" : {
                "receiver_id" : [
                    [
                        125091840205,
                        125091840205
                    ]
                ]

平均返回结果需要15秒以上。 caller_id和receiver_id的索引应该在90GB左右，这没关系。但是，_id上的73GB索引会使此查询非常慢。

Answer 1

您已正确告知您无法从文档中删除_id字段。您也无法从此字段中删除索引，因此您必须接受这一点。

出于某种原因，你首先假设_id索引使你的查询变慢，这是完全没有道理的，而且很可能是错误的。该指数未被使用，只是保持不变。

在你的情况下我会尝试做的事情很少：

您的收藏中有4000亿个文档，您认为现在是开始分片数据库的最佳时机吗？在我看来你应该。
使用explain with your query来实际找出减慢速度的因素。

查看您的查询，我还会尝试执行以下操作：从

更改您的文档

{
  ... something else ...
  receiver_id: 234,
  caller_id: 342
}

到

{
   ... something else ...
   participants: [342, 234]
}

您的参与者按此顺序[caller_id, receiver_id]，那么您只能在此字段上放置一个索引。我知道它不会使你的索引变小，但我希望因为你不会使用$or子句，你会得到更快的结果。 P.S。如果你这样做，不要在生产中这样做，测试它是否会给你一个显着的改进，然后才改变产品。

Answer 2

这里有很多潜在的问题。

首先，您的索引不包含返回的所有数据。这意味着Mongo从索引获取_id，然后使用_id检索并返回有问题的文档。因此，即使可以，删除_id索引也无济于事。

其次，查询包含OR。这会强制Mongo加载两个索引，以便它可以读取它们，然后检索有问题的文档。

为了提高性能，我认为您只有几个选择：

将其他元素添加到索引中并将返回的数据限制为索引中可用的数据（这将在解释结果中更改indexOnly = true）
按照Skooppa.com的说法探索分片。
重写查询和/或文档以消除OR条件。

摆脱mongodb集合中的_id

2 个答案: