Mongodb:如何避免锁定大集合更新

时间:2013-08-01 08:13:18

标签: mongodb

我有一个events 2.502.011元素的集合,并希望对所有元素执行更新。不幸的是,由于写锁定,我面临很多mongodb错误。

问题:我如何避免这些错误,以确保我的所有活动都已正确更新?

以下是有关我的活动集合的信息:

> db.events.stats()
{
    "count" : 2502011,
    "size" : 2097762368,
    "avgObjSize" : 838.4305136947839,
    "storageSize" : 3219062784,
    "numExtents" : 21,
    "nindexes" : 6,
    "lastExtentSize" : 840650752,
    "paddingFactor" : 1.0000000000874294,
    "systemFlags" : 0,
    "userFlags" : 0,
    "totalIndexSize" : 1265898256,
    "indexSizes" : {
        "_id_" : 120350720,
        "destructured_created_at_1" : 387804032,
        "destructured_updated_at_1" : 419657728,
        "data.assigned_author_id_1" : 76053152,
        "emiting_class_1_data.assigned_author_id_1_data.user_id_1_data.id_1_event_type_1" : 185071936,
        "created_at_1" : 76960688
    }
}

以下是事件的样子:

> db.events.findOne()
{
  "_id" : ObjectId("4fd5d4586107d93b47000065"),
  "created_at" : ISODate("2012-06-11T11:19:52Z"),
  "data" : {
    "project_id" : ObjectId("4fc3d2abc7cd1e0003000061"),
    "document_ids" : [
      "4fc3d2b45903ef000300007d",
      "4fc3d2b45903ef000300007e"
    ],
    "file_type" : "excel",
    "id" : ObjectId("4fd5d4586107d93b47000064")
  },
  "emiting_class" : "DocumentExport",
  "event_type" : "created",
  "updated_at" : ISODate("2013-07-31T08:52:48Z")
}

我想更新每个活动,根据现有created_atupdated_at添加2个新字段。如果我错了,请纠正我,但是当你需要在途中访问当前的元素数据时,你似乎无法使用mongo update命令。

这是我的更新循环:

db.events.find().forEach(
  function (e) {
    created_at = new Date(e.created_at);
    updated_at = new Date(e.updated_at);

    e.destructured_created_at = [e.created_at]; // omitted the actual values
    e.destructured_updated_at = [e.updated_at]; // omitted the actual values
    db.events.save(e);
  }
)

运行上述命令时,由于数据库上的写锁定,我收到大量页面错误。

mongostat

1 个答案:

答案 0 :(得分:6)

我觉得你在这里很困惑,它不是造成锁定的写锁定,它是MongoDB查询你的更新文件;在页面错误期间锁定不存在(实际上它仅在实际更新,或者更确切地说是在磁盘上保存文档时存在),它让位于其他操作。

锁在MongoDB中更像是一个互斥锁。

这种数据大小的页面错误是完全正常的,因为你显然不经常查询这些数据,我不确定你期望看到什么。我绝对不确定你的问题是什么意思:

  

问题:为了确保我的所有事件都已正确更新,我该如何避免这些错误?

好的,您可能会遇到的问题是,您在该计算机上的页面抖动会破坏您的IO带宽并使用不需要的数据充斥您的工作集。您是否真的需要将此字段急切地添加到所有文档中,是否可以在再次使用该数据时按需添加该字段?

另一个选择是批量执行此操作。

您可以在此处使用的一个功能是优先级队列,它规定此类更新是一项后台任务,不应过多影响mongod的当前工作。我听说这样的功能到期了(找不到JIRA :/)。

  

如果我错了,请纠正我,但是当你需要在途中访问当前的元素数据时,你似乎无法使用mongo update命令。

你是对的。