我确实有一个包含超过十亿个对象的表,如下所示:
db.getCollection('table').aggregate(
[
{"$group" : {
"_id": {
"year": { "$year": "$inserted_at"},
"week": { "$week": "$inserted_at"}},
"Content_IDs": { "$push": "$id"}}},
{ "$sort": {'_id.year': -1, '_id.week': -1}},
{ "$limit": 2},
{ "$group": {
"_id": null,
"Last": { $first: "$Content_IDs" },
"Previous": { $last: "$Content_IDs"}
}},
{ $project: {
"Outgoing": { $setDifference: [ "$Previous", "$Last" ] },
"Incoming": { $setDifference: [ "$Last", "$Previous" ] }}},
],
{allowDiskUse:true}
)
它保存在mongodb 3.2.11。
我每周会插入近5000万条新记录,需要将新周的记录与前一周的记录进行比较。
因此,我构建了一个这样的查询:
[
{"$group" : {
"_id": {
"year": { "$year": "$inserted_at"},
"week": { "$week": "$inserted_at"}},
"Content_IDs": { "$push": "$id"}}},
{ "$sort": SON([('_id.year', -1), ('_id.week', -1)])},
{ "$limit": 2}
]
然而,由于数据的大小,mongodb无法计算结果。
错误如下:
断言:命令失败:{“ok”:0,“errmsg”:“BufBuilder尝试过 增长()到134217728字节,超过64MB限制。“,”代码“:13548}
我试图将所有记录提取到Python env中,以便我可以在那里计算结果但是当我在pymongo.aggregate上运行以下管道时出现了同样的错误:
onYouTubeIframeAPIReady
它适用于较小规模的数据。如何使此查询更具可伸缩性?有什么建议吗?
非常感谢!
答案 0 :(得分:0)
我遇到了类似的问题,我开始使用Spark(和Scala)来操纵我的数据。内存限制不多,您可以在群集中使用,它比nodejs更快。