我们正在进行查询,其中返回的结果应该是建议的搜索字词列表。
我们目前有一个查询在多个字段检查正则表达式匹配:
$or:[
{'description.position':/s/i},
{'employer.name':/s/i},
{'hiringManager.profile.name':/s/i}
]
我们希望返回的结果是唯一的匹配数组(不重复)。
返回的结果类似于:
I20150311-18:17:14.151(-7)? "fields": {
I20150311-18:17:14.154(-7)? "hiringManager": {
I20150311-18:17:14.157(-7)? "profile": {
I20150311-18:17:14.160(-7)? "name": "Seth Sandler"
I20150311-18:17:14.163(-7)? }
I20150311-18:17:14.167(-7)? },
I20150311-18:17:14.173(-7)? "description": {
I20150311-18:17:14.177(-7)? "position": "Cook"
I20150311-18:17:14.181(-7)? },
I20150311-18:17:14.187(-7)? "employer": {
I20150311-18:17:14.191(-7)? "name": "Employer"
I20150311-18:17:14.195(-7)? },
I20150311-18:17:14.206(-7)? }
I20150311-18:17:14.209(-7)? }
I20150311-18:17:14.212(-7)? {
I20150311-18:17:14.223(-7)? "fields": {
I20150311-18:17:14.226(-7)? "hiringManager": {
I20150311-18:17:14.229(-7)? "profile": {
I20150311-18:17:14.232(-7)? "name": "Seth Sandler"
I20150311-18:17:14.234(-7)? }
I20150311-18:17:14.237(-7)? },
I20150311-18:17:14.240(-7)? "description": {
I20150311-18:17:14.243(-7)? "position": "Cook"
I20150311-18:17:14.246(-7)? },
I20150311-18:17:14.249(-7)? "employer": {
I20150311-18:17:14.252(-7)? "name": "Employer 4"
I20150311-18:17:14.254(-7)? },
I20150311-18:17:14.264(-7)? }
I20150311-18:17:14.267(-7)? }
I20150311-18:17:14.269(-7)? {
I20150311-18:17:14.281(-7)? "fields": {
I20150311-18:17:14.284(-7)? "hiringManager": {
I20150311-18:17:14.287(-7)? "profile": {
I20150311-18:17:14.290(-7)? "name": "Seth Sandler"
I20150311-18:17:14.293(-7)? }
I20150311-18:17:14.295(-7)? },
I20150311-18:17:14.298(-7)? "description": {
I20150311-18:17:14.301(-7)? "position": "Chef"
I20150311-18:17:14.304(-7)? },
I20150311-18:17:14.307(-7)? "employer": {
I20150311-18:17:14.310(-7)? "name": "Emplopyer 3"
I20150311-18:17:14.313(-7)? },
I20150311-18:17:14.321(-7)? }
I20150311-18:17:14.323(-7)? }
I20150311-18:17:14.325(-7)? {
I20150311-18:17:14.334(-7)? "fields": {
I20150311-18:17:14.336(-7)? "hiringManager": {
I20150311-18:17:14.338(-7)? "profile": {
I20150311-18:17:14.340(-7)? "name": "Seth Sandler"
I20150311-18:17:14.342(-7)? }
I20150311-18:17:14.344(-7)? },
I20150311-18:17:14.346(-7)? "description": {
I20150311-18:17:14.348(-7)? "position": "Chef"
I20150311-18:17:14.350(-7)? },
I20150311-18:17:14.353(-7)? "employer": {
I20150311-18:17:14.356(-7)? "name": "Employer"
I20150311-18:17:14.359(-7)? },
I20150311-18:17:14.366(-7)? }
I20150311-18:17:14.369(-7)? }
我们希望结果是hiringManager.profile.name,employer.name和description.position的值的唯一数组。
我们当前的解决方案似乎并不理想(可能不是高性能),并且想知道是否可以使用mongogodb聚合函数将字段值放入数组中。
目前的解决方案(不理想):
aggregate([
{$match: {$or:[ {'description.position':/s/i}, {'employer.name':/s/i}, {'hiringManager.profile.name':/s/i} ]}},
{$group: {_id: 1, positions: {$push: '$description.position'}, employerNames: {$push: '$employer.name'}, hiringManagerNames: {$push:'$hiringManager.profile.name'}}},
{$project: {_id:1, texts: {$setUnion: ['$positions', {$setUnion: ['$employerNames', '$hiringManagerNames']}]}}}
])
})
这个输出是正确的,但我们想要一个更好的聚合函数,我们可以限制结果。
I20150311-18:25:26.461(-7)? "result": [
I20150311-18:25:26.465(-7)? {
I20150311-18:25:26.468(-7)? "_id": 1,
I20150311-18:25:26.472(-7)? "texts": [
I20150311-18:25:26.478(-7)? "Employer 5",
I20150311-18:25:26.481(-7)? "Employer 4",
I20150311-18:25:26.485(-7)? "Employer 1",
I20150311-18:25:26.488(-7)? "Manager",
I20150311-18:25:26.504(-7)? "Cook",
I20150311-18:25:26.507(-7)? "Chef",
I20150311-18:25:26.530(-7)? ]
I20150311-18:25:26.534(-7)? }
I20150311-18:25:26.538(-7)? ]
答案 0 :(得分:2)
使用另一种技术可能会更好,以便通过制作"文本"来获得不同的结果。实际的"分组键" $group
管道。在像现在这样的现有MongoDB版本中有一个合理有效的方法,就是版本2.6或更高版本:
db.collection.aggregate([
{ "$match": {
"$or":[
{ "description.position":/s/i },
{ "employer.name":/s/i},
{ "hiringManager.profile.name":/s/i }
]
}},
{ "$project": {
"_id": {
"$setDifference": [
{ "$map": {
"input": { "$literal": ["A","B","C" ] },
"as": "type",
"in": { "$cond": [
{ "$eq": [ "$$type", "A" ] },
"$description.position",
{ "$cond": [
{ "$eq": [ "$$type", "B" ] },
"$employer.name",
"$hiringManager.profile.name"
]}
]}
}},
[null]
]
}
}},
{ "$unwind": "$_id" },
{ "$group": { "_id": "$_id" } }
])
因此$map
被用作触发"开关的基础"通过处理发送给它的$literal
["A","B","C"]
数组。因此,对于每个元素,选择适当的字段作为输出值。
如果这些值中的任何值null
或甚至可能在同一文档中重复,则$setDifference
运算符会对其进行排序。
每个文档中生成的数组都使用$unwind
进行处理,以便它的元素可以作为分组键传递给$group
,从而为每个文档生成不同的文档。文本"术语
当然,这里的权衡是管道中的文档将是集合中文档的多个,最多三个可能的值来自每个字段,因此管道中的文档比查询更多,直到明显匹配分组。因此,使用$unwind
时会产生费用。
结果中的好处是单独的文件,可以超过16MB的个人"文本"通过使用游标输出。当然,这可以从很多文本开始。
现有聚合操作的另一个注意事项是,您已经在接受$setUnion
来组合这些字段并获得不同的值,甚至可以"减少"改为使用$addToSet
输入数组。这样就可以避免使用重复数据增加数组,无论如何都要删除它们。
同样的$setDifference
操作也应该被考虑,因为您的$or
条件并不能保证"所有"这些字段包含有效字符串或甚至存在。如果并非所有字段都有效,那么您还会收到null
的明确结果以及其他文字字词。
所以关于权衡对你来说更重要。目前的操作可能更快,资源消耗更少(通过上述修改),但替代方案可以满足更大且可能更可口的响应。它还允许你限制"甚至可能做像" count"那些"文本"的出现值。
答案 1 :(得分:0)
@ Neil的答案很接近,但似乎需要另外一场比赛来确保结果与原始正则表达式相匹配。我不确定这是否是一个好的解决方案,但这是一个新的工作聚合。它似乎没有setDifferennce
,所以我不确定是否需要。
基本上,我在展开结果上运行另一个match
以确保它们与原始正则表达式匹配。
aggregate([
{ '$match': {
'$or':[
{ 'description.position':/s/i },
{ 'employer.name':/s/i},
{ 'hiringManager.profile.name':/s/i }
]
}},
{ '$project': {
'_id':
{ '$map': {
'input': { '$literal': ['A','B','C' ] },
'as': 'type',
'in': { '$cond': [
{ '$eq': [ '$$type', 'A' ] },
'$description.position',
{ '$cond': [
{ '$eq': [ '$$type', 'B' ] },
'$employer.name',
'$hiringManager.profile.name'
]}
]}
},
}
}},
{ '$unwind': '$_id' },
{ '$match': { '_id':/s/i }},
{ '$group': { '_id': '$_id' } }
]);
});