如何使用聚合计算运行总计

时间:2015-01-17 01:06:03

标签: mongodb mapreduce mongodb-query aggregation-framework

我正在开发一个简单的财务应用程序来跟踪收入和结果。

为简单起见,我们假设这些是我的一些文件:

{ "_id" : ObjectId("54adc0659413535e02fba115"), "description" : "test1", "amount" : 100, "dateEntry" : ISODate("2015-01-07T23:00:00Z") }
{ "_id" : ObjectId("54adc21a0d150c760270f99c"), "description" : "test2", "amount" : 50, "dateEntry" : ISODate("2015-01-06T23:00:00Z") }
{ "_id" : ObjectId("54b05da766341e4802b785c0"), "description" : "test3", "amount" : 11, "dateEntry" : ISODate("2015-01-09T23:00:00Z") }
{ "_id" : ObjectId("54b05db066341e4802b785c1"), "description" : "test4", "amount" : 2, "dateEntry" : ISODate("2015-01-09T23:00:00Z") }
{ "_id" : ObjectId("54b05dbb66341e4802b785c2"), "description" : "test5", "amount" : 12, "dateEntry" : ISODate("2015-01-09T23:00:00Z") }
{ "_id" : ObjectId("54b05f4ee0933a5c02398d55"), "description" : "test6", "amount" : 4, "dateEntry" : ISODate("2015-01-09T23:00:00Z") }

我现在想要的是平衡"图表,基于这样的数据:

[
   { day:'2015-01-06', amount:50}, 
   { day:'2015-01-07', amount:150}, 
   { day:'2015-01-09', amount:179},
...
]

换句话说,我需要按天分组我的所有交易,并且每天我需要总结我以前的所有交易(从世界的开始)。

我已经知道如何按天分组:

$group: {
   _id: { 
      y: {$year:"$dateEntry"}, 
      m: {$month:"$dateEntry"}, 
      d: {$dayOfMonth:"$dateEntry"} 
   }, 
   sum: ???
}

但我不知道怎么回去并总结所有金额。 想象一下,我需要显示月度余额报告:我应该运行31个查询,每天一个查询除了下一天之外的所有交易金额吗?我当然可以,但不要认为这是最好的解决方案。

提前致谢!

1 个答案:

答案 0 :(得分:5)

实际上比聚合框架更适合mapReduce,至少在最初的问题解决方面。聚合框架没有先前文档的值的概念,也没有文档的先前“分组”值,因此这就是为什么它不能这样做。

另一方面,mapReduce有一个“全局范围”,可以在处理阶段和文档之间共享。这将为您提供所需日期当前余额的“运行总额”。

db.collection.mapReduce(
  function () {
    var date = new Date(this.dateEntry.valueOf() -
      ( this.dateEntry.valueOf() % ( 1000 * 60 * 60 * 24 ) )
    );

    emit( date, this.amount );
  },
  function(key,values) {
      return Array.sum( values );
  },
  { 
      "scope": { "total": 0 },
      "finalize": function(key,value) {
          total += value;
          return total;
      },
      "out": { "inline": 1 }
  }
)      

这将按日期分组相加,然后在“最终确定”部分中,它会从每一天产生累计金额。

   "results" : [
            {
                    "_id" : ISODate("2015-01-06T00:00:00Z"),
                    "value" : 50
            },
            {
                    "_id" : ISODate("2015-01-07T00:00:00Z"),
                    "value" : 150
            },
            {
                    "_id" : ISODate("2015-01-09T00:00:00Z"),
                    "value" : 179
            }
    ],

从长远来看,您最好拥有一个单独的集合,每天都有一个条目,并在更新中使用$inc更改余额。也可以在每天开始时$inc upsert创建一个新文档来结转前一天的余额:

// increase balance
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": amount } },
    { "upsert": true }
);

// decrease balance
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": -amount } },
    { "upsert": true }
);

// Each day
var lastDay = db.daily.findOne({ "dateEntry": lastDate });
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": lastDay.balance } },
    { "upsert": true }
);

如何不这样做

虽然从最初的写作开始,聚合框架中引入了更多的运算符,但在这里要求的仍然不是实际在聚合语句中。

同样的基本规则适用于聚合框架 不能 引用前一个“文档”中的值,也不能存储“全局变量”。通过将所有结果强制转换为数组来“Hacking”

db.collection.aggregate([
  { "$group": {
    "_id": { 
      "y": { "$year": "$dateEntry" }, 
      "m": { "$month": "$dateEntry" }, 
      "d": { "$dayOfMonth": "$dateEntry" } 
    }, 
    "amount": { "$sum": "$amount" }
  }},
  { "$sort": { "_id": 1 } },
  { "$group": {
    "_id": null,
    "docs": { "$push": "$$ROOT" }
  }},
  { "$addFields": {
    "docs": {
      "$map": {
        "input": { "$range": [ 0, { "$size": "$docs" } ] },
        "in": {
          "$mergeObjects": [
            { "$arrayElemAt": [ "$docs", "$$this" ] },
            { "amount": { 
              "$sum": { 
                "$slice": [ "$docs.amount", 0, { "$add": [ "$$this", 1 ] } ]
              }
            }}
          ]
        }
      }
    }
  }},
  { "$unwind": "$docs" },
  { "$replaceRoot": { "newRoot": "$docs" } }
])

这既不是高性能解决方案,也不是“安全”,因为较大的结果集会突然违反16MB BSON限制。作为“黄金法则”,任何建议将所有内容放在单个文档的数组中的内容:

{ "$group": {
  "_id": null,
  "docs": { "$push": "$$ROOT" }
}}

那么这是一个基本缺陷,因此不是解决方案


结论

处理此问题的更为确定的方法通常是对结果的运行光标进行后期处理:

var globalAmount = 0;

db.collection.aggregate([
  { $group: {
    "_id": { 
      y: { $year:"$dateEntry"}, 
      m: { $month:"$dateEntry"}, 
      d: { $dayOfMonth:"$dateEntry"} 
    }, 
    amount: { "$sum": "$amount" }
  }},
  { "$sort": { "_id": 1 } }
]).map(doc => {
  globalAmount += doc.amount;
  return Object.assign(doc, { amount: globalAmount });
})

所以一般情况下总是更好:

  • 将光标迭代和跟踪变量用于总计。 mapReduce样本是上述简化过程的一个人为举例。

  • 使用预先汇总的总计。可能与光标迭代一致,取决于您的预聚合过程,无论是区间总计还是“结转”运行总计。

聚合框架应该真正用于“聚合”,仅此而已。通过像处理数组这样的过程强制对数据进行强制处理只是为了处理你想要的方式既不明智也不安全,最重要的是客户端操作代码更清晰,更有效。

让数据库做他们擅长的事情,因为你可以在代码中更好地处理“操作”。