使用mongodb聚合,如何将字段值转换为数组文字

时间:2015-03-12 01:27:33

标签: regex mongodb mongodb-query aggregation-framework

我们正在进行查询,其中返回的结果应该是建议的搜索字词列表。

我们目前有一个查询在多个字段检查正则表达式匹配:

$or:[ 
{'description.position':/s/i}, 
{'employer.name':/s/i}, 
{'hiringManager.profile.name':/s/i}
]

我们希望返回的结果是唯一的匹配数组(不重复)。

返回的结果类似于:

I20150311-18:17:14.151(-7)?   "fields": {
I20150311-18:17:14.154(-7)?     "hiringManager": {
I20150311-18:17:14.157(-7)?       "profile": {
I20150311-18:17:14.160(-7)?         "name": "Seth Sandler"
I20150311-18:17:14.163(-7)?       }
I20150311-18:17:14.167(-7)?     },
I20150311-18:17:14.173(-7)?     "description": {
I20150311-18:17:14.177(-7)?       "position": "Cook"
I20150311-18:17:14.181(-7)?     },
I20150311-18:17:14.187(-7)?     "employer": {
I20150311-18:17:14.191(-7)?       "name": "Employer"
I20150311-18:17:14.195(-7)?     },
I20150311-18:17:14.206(-7)?   }
I20150311-18:17:14.209(-7)? }
I20150311-18:17:14.212(-7)? {
I20150311-18:17:14.223(-7)?   "fields": {
I20150311-18:17:14.226(-7)?     "hiringManager": {
I20150311-18:17:14.229(-7)?       "profile": {
I20150311-18:17:14.232(-7)?         "name": "Seth Sandler"
I20150311-18:17:14.234(-7)?       }
I20150311-18:17:14.237(-7)?     },
I20150311-18:17:14.240(-7)?     "description": {
I20150311-18:17:14.243(-7)?       "position": "Cook"
I20150311-18:17:14.246(-7)?     },
I20150311-18:17:14.249(-7)?     "employer": {
I20150311-18:17:14.252(-7)?       "name": "Employer 4"
I20150311-18:17:14.254(-7)?     },
I20150311-18:17:14.264(-7)?   }
I20150311-18:17:14.267(-7)? }
I20150311-18:17:14.269(-7)? {
I20150311-18:17:14.281(-7)?   "fields": {
I20150311-18:17:14.284(-7)?     "hiringManager": {
I20150311-18:17:14.287(-7)?       "profile": {
I20150311-18:17:14.290(-7)?         "name": "Seth Sandler"
I20150311-18:17:14.293(-7)?       }
I20150311-18:17:14.295(-7)?     },
I20150311-18:17:14.298(-7)?     "description": {
I20150311-18:17:14.301(-7)?       "position": "Chef"
I20150311-18:17:14.304(-7)?     },
I20150311-18:17:14.307(-7)?     "employer": {
I20150311-18:17:14.310(-7)?       "name": "Emplopyer 3"
I20150311-18:17:14.313(-7)?     },
I20150311-18:17:14.321(-7)?   }
I20150311-18:17:14.323(-7)? }
I20150311-18:17:14.325(-7)? {
I20150311-18:17:14.334(-7)?   "fields": {
I20150311-18:17:14.336(-7)?     "hiringManager": {
I20150311-18:17:14.338(-7)?       "profile": {
I20150311-18:17:14.340(-7)?         "name": "Seth Sandler"
I20150311-18:17:14.342(-7)?       }
I20150311-18:17:14.344(-7)?     },
I20150311-18:17:14.346(-7)?     "description": {
I20150311-18:17:14.348(-7)?       "position": "Chef"
I20150311-18:17:14.350(-7)?     },
I20150311-18:17:14.353(-7)?     "employer": {
I20150311-18:17:14.356(-7)?       "name": "Employer"
I20150311-18:17:14.359(-7)?     },
  I20150311-18:17:14.366(-7)?   }
I20150311-18:17:14.369(-7)? }

我们希望结果是hiringManager.profile.name,employer.name和description.position的值的唯一数组。

我们当前的解决方案似乎并不理想(可能不是高性能),并且想知道是否可以使用mongogodb聚合函数将字段值放入数组中。

目前的解决方案(不理想):

aggregate([
{$match: {$or:[ {'description.position':/s/i}, {'employer.name':/s/i}, {'hiringManager.profile.name':/s/i}    ]}},
{$group: {_id: 1, positions: {$push: '$description.position'}, employerNames: {$push: '$employer.name'}, hiringManagerNames: {$push:'$hiringManager.profile.name'}}},
{$project: {_id:1, texts: {$setUnion: ['$positions', {$setUnion: ['$employerNames', '$hiringManagerNames']}]}}}
])
})

这个输出是正确的,但我们想要一个更好的聚合函数,我们可以限制结果。

I20150311-18:25:26.461(-7)?   "result": [
I20150311-18:25:26.465(-7)?     {
I20150311-18:25:26.468(-7)?       "_id": 1,
I20150311-18:25:26.472(-7)?       "texts": [
I20150311-18:25:26.478(-7)?         "Employer 5",
I20150311-18:25:26.481(-7)?         "Employer 4",
I20150311-18:25:26.485(-7)?         "Employer 1",
I20150311-18:25:26.488(-7)?         "Manager",
I20150311-18:25:26.504(-7)?         "Cook",
I20150311-18:25:26.507(-7)?         "Chef",
I20150311-18:25:26.530(-7)?       ]
I20150311-18:25:26.534(-7)?     }
I20150311-18:25:26.538(-7)?   ]

2 个答案:

答案 0 :(得分:2)

使用另一种技术可能会更好,以便通过制作"文本"来获得不同的结果。实际的"分组键" $group管道。在像现在这样的现有MongoDB版本中有一个合理有效的方法,就是版本2.6或更高版本:

db.collection.aggregate([
    { "$match": {
        "$or":[
            { "description.position":/s/i },
            { "employer.name":/s/i},
            { "hiringManager.profile.name":/s/i }
        ]
    }},
    { "$project": {
        "_id": { 
            "$setDifference": [
                { "$map": {
                    "input": { "$literal": ["A","B","C" ] },
                     "as": "type",
                    "in": { "$cond": [
                        { "$eq": [ "$$type", "A" ] },
                        "$description.position",
                        { "$cond": [
                            { "$eq": [ "$$type", "B" ] },
                            "$employer.name",
                            "$hiringManager.profile.name"
                        ]}
                    ]}
                }},
                [null] 
            ]
        }
    }},
    { "$unwind": "$_id" },
    { "$group": { "_id": "$_id" } }
])

因此$map被用作触发"开关的基础"通过处理发送给它的$literal ["A","B","C"]数组。因此,对于每个元素,选择适当的字段作为输出值。

如果这些值中的任何值null或甚至可能在同一文档中重复,则$setDifference运算符会对其进行排序。

每个文档中生成的数组都使用$unwind进行处理,以便它的元素可以作为分组键传递给$group,从而为每个文档生成不同的文档。文本"术语

当然,这里的权衡是管道中的文档将是集合中文档的多个,最多三个可能的值来自每个字段,因此管道中的文档比查询更多,直到明显匹配分组。因此,使用$unwind时会产生费用。

结果中的好处是单独的文件,可以超过16MB的个人"文本"通过使用游标输出。当然,这可以从很多文本开始。

现有聚合操作的另一个注意事项是,您已经在接受$setUnion来组合这些字段并获得不同的值,甚至可以"减少"改为使用$addToSet输入数组。这样就可以避免使用重复数据增加数组,无论如何都要删除它们。

同样的$setDifference操作也应该被考虑,因为您的$or条件并不能保证"所有"这些字段包含有效字符串或甚至存在。如果并非所有字段都有效,那么您还会收到null的明确结果以及其他文字字词。

所以关于权衡对你来说更重要。目前的操作可能更快,资源消耗更少(通过上述修改),但替代方案可以满足更大且可能更可口的响应。它还允许你限制"甚至可能做像" count"那些"文本"的出现值。

答案 1 :(得分:0)

@ Neil的答案很接近,但似乎需要另外一场比赛来确保结果与原始正则表达式相匹配。我不确定这是否是一个好的解决方案,但这是一个新的工作聚合。它似乎没有setDifferennce,所以我不确定是否需要。

基本上,我在展开结果上运行另一个match以确保它们与原始正则表达式匹配。

aggregate([

  { '$match': {
        '$or':[
            { 'description.position':/s/i },
            { 'employer.name':/s/i},
            { 'hiringManager.profile.name':/s/i }
        ]
    }},
    { '$project': {
        '_id':  
                { '$map': {
                    'input': { '$literal': ['A','B','C' ] },
                     'as': 'type',
                     'in': { '$cond': [
                        { '$eq': [ '$$type', 'A' ] },
                        '$description.position',
                        { '$cond': [
                            { '$eq': [ '$$type', 'B' ] },
                            '$employer.name',
                            '$hiringManager.profile.name'
                        ]}
                    ]}
                },
        }
    }},
    { '$unwind': '$_id' },
    { '$match': { '_id':/s/i }},
{ '$group': { '_id': '$_id' } }
]);
});