Question

我想根据名称在mongodb中找到重复的文档，我有以下代码：

def Check_BFA_DB(options):
    issue_list=[]
    client = MongoClient(options.host, int(options.port))
        db = client[options.db]
        collection = db[options.collection]
        names = [{'$project': {'name':'$name'}}]
        name_cursor = collection.aggregate(names, cursor={})
        for name in name_cursor:
            issue_list.append(name)
            print(name)

它将打印所有名称，如何只打印重复的名称？

寻求任何帮助！

Answer 1

以下查询将仅显示重复项：

db['collection_name'].aggregate([{'$group': {'_id':'$name', 'count': {'$sum': 1}}}, {'$match': {'count': {'$gt': 1}}}])

工作原理：

步骤1：遍历整个集合，并按名为name的属性对文档进行分组，并为每个名称计算在集合中使用了多少次。

步骤2：仅过滤计数大于1的文档（使用match关键字）（gt运算符）。

一个示例（为mongo shell编写，但可以很容易地为python改编）：

db.a.insert({name: "name1"})
db.a.insert({name: "name1"})
db.a.insert({name: "name2"})
db.a.aggregate([{"$group": {_id:"$name", count: {"$sum": 1}}}, {$match: {count: {"$gt": 1}}}])

结果为{ "_id" : "name1", "count" : 2 }

因此您的代码应如下所示：

def Check_BFA_DB(options):
    issue_list=[]
    client = MongoClient(options.host, int(options.port))
    db = client[options.db]
    name_cursor = db[options.collection].aggregate([
        {'$group': {'_id': '$name', 'count': {'$sum': 1}}},
        {'$match': {'count': {'$gt': 1}}}
        ])

    for document in name_cursor:
        name = document['_id']
        issue_list.append(name)
        print(name)

顺便说一句（与问题无关），函数名称的python命名约定为小写字母，因此您可能需要将其命名为check_bfa_db()

Python-如何在mongo db中查找重复的名称/文档？

1 个答案:

Python-如何在m​​ongo db中查找重复的名称/文档？

1 个答案:

Python-如何在mongo db中查找重复的名称/文档？