我想删除robomongo上的重复项,我的版本3.0.12所以我不能使用DropDups,
{
"_id" : ObjectId("id"),
"Name" : "No One",
"SituationDate" : "18-03-2017",
"Situation" : "ACTIVE",
"Region" : "13 REGION",
"RegisterNumber" : "7649",
"Version" : "20170517"
}
RegisterNumber应该是唯一的,所以我想删除RegisterNumber的重复项。
编辑:我刚刚发现来自不同地区的人可以拥有相同的registerNumber ...我怎样才能删除那些同时具有RegisterNumber和Region的人解决方案:
以下是@Neil Lunn给出的小修改解决方案,我在一个名为TEST
的集合中对其进行了测试并且有效:
var bulk = db.getCollection('TEST').initializeOrderedBulkOp();
var count = 0;
db.getCollection('TEST').aggregate([
// Group on unique value storing _id values to array and count
{ "$group": {
"_id": { RegisterNumber: "$RegisterNumber", Region: "$Region" },
"ids": { "$push": "$_id" },
"count": { "$sum": 1 }
}},
// Only return things that matched more than once. i.e a duplicate
{ "$match": { "count": { "$gt": 1 } } }
]).forEach(function(doc) {
var keep = doc.ids.shift(); // takes the first _id from the array
bulk.find({ "_id": { "$in": doc.ids }}).remove(); // remove all remaining _id matches
count++;
if ( count % 500 == 0 ) { // only actually write per 500 operations
bulk.execute();
bulk = db.getCollection('TEST').initializeOrderedBulkOp(); // re-init after execute
}
});
// Clear any queued operations
if ( count % 500 != 0 )
bulk.execute();
答案 0 :(得分:2)
如果您准备简单地丢弃所有其他重复项,那么您基本上希望.aggregate()
以便收集具有相同RegisterNumber
值的文档并删除除第一个匹配项以外的所有其他文档。< / p>
MongoDB 3.0.x缺少一些现代帮助程序,但.aggregate()
为进程大型结果集返回游标的基础知识以及"bulk operations"对于写入性能的存在仍然存在:
var bulk = db.collection.initializeOrderedBulkOp();
var count = 0;
db.collection.aggregate([
// Group on unique value storing _id values to array and count
{ "$group": {
"_id": "$RegisterNumber",
"ids": { "$push": "$_id" },
"count": { "$sum": 1 }
}},
// Only return things that matched more than once. i.e a duplicate
{ "$match": { "count": { "$gt": 1 } } }
]).forEach(function(doc) {
var keep = doc.ids.shift(); // takes the first _id from the array
bulk.find({ "_id": { "$in": doc.ids }}).remove(); // remove all remaining _id matches
count++;
if ( count % 500 == 0 ) { // only actually write per 500 operations
bulk.execute();
bulk = db.collection.initializeOrderedBulkOp(); // re-init after execute
}
});
// Clear any queued operations
if ( count % 500 != 0 )
bulk.execute();
在更现代的版本(3.2及更高版本)中,最好使用bulkWrite()
代替。请注意,这是一个客户端库&#39;事情,同样的&#34;批量&#34;上面显示的方法实际上被称为&#34;引擎盖下#34;:
var ops = [];
db.collection.aggregate([
{ "$group": {
"_id": "$RegisterNumber",
"ids": { "$push": "$id" },
"count": { "$sum": 1 }
}},
{ "$match": { "count": { "$gt": 1 } } }
]).forEach( doc => {
var keep = doc.ids.shift();
ops = [
...ops,
{
"deleteMany": { "filter": { "_id": { "$in": doc.ids } } }
}
];
if (ops.length >= 500) {
db.collection.bulkWrite(ops);
ops = [];
}
});
if (ops.length > 0)
db.collection.bulkWrite(ops);
所以$group
通过$RegisterNumber
值将所有内容拉到一起,并将匹配的文档_id
值收集到一个数组中。您可以使用$sum
保持这种情况发生的次数。
然后过滤掉任何只有1
的文件,因为这些文件显然不重复。
传递给循环,您会删除收集的_id
密钥中.shift()
的第一次出现,只留下其他&#34;重复的&#34;在阵列中。
这些传递给&#34;删除&#34;使用$in
作为&#34;列表&#34;要匹配和删除的文件。
如果您需要更复杂的内容(例如合并其他重复文档中的详细信息),则此过程通常是相同的,只是在执行类似转换&#34;的情况时您可能需要更多关注。独特的关键&#34;因此,在将更改写入要修改的文档之前,首先要删除重复项。
无论如何,聚合将突出显示实际上是&#34;重复&#34;的文档。剩下的处理逻辑基于您在识别它们时实际想要对该信息做什么。