Symfony / Doctrine / MongoDB获取每个第N项

时间:2016-05-19 11:27:06

标签: php mongodb symfony doctrine-orm doctrine

我的数据集包含每天每5秒的数据点数。这将导致每天 17280 项目的数据集。 这个集合太大了,我希望它更小(我使用这些项目来绘制图形)。

由于图表的x轴随着时间的推移,我决定每个数据点的间隔为5分钟就足够了。这将每天返回 288 数据点。制作图表要少得多,也足够好。

我的MongoCollection看起来像这样:

{
    "timestamp":"12323455",
    "someKey":123,
    "someOtherKey": 345,
    "someOtherOtherKey": 6789
}

数据每5秒发布一次到数据库中。因此,每个结果的时间戳将相差5秒。

由于我的x轴分为5分钟序列,我很乐意在这5分钟内计算someKeysomeOtherKeysomeOtherOtherkey的平均值。 这个新的平均值将是我图表中的数据点之一。

如何从1天开始获得所有数据点,每个平均值相隔5分钟? (每天288个数据点)。

至于现在我从今天午夜开始选择每一份文件:

$result = $collection
    ->createQueryBuilder()
    ->field('timestamp')->gte($todayMidnight)
    ->sort('timestamp', 'DSC')
    ->getQuery()
    ->execute();

如何过滤此数据列表(在同一查询中)以获取每5分钟一次的数据点(并且数据点是这5分钟内点数的平均值)?

使用 doctrine 构建此查询会很好,因为我需要在我的symfony应用程序中使用它。

修改 我试图在mongoshell工作中首先得到我的查询。 正如在建议的评论中我应该开始使用aggregation

我到目前为止所提出的查询是基于stackoverflow

上提出的另一个问题

这是当前的查询:

db.Pizza.aggregate([
    {
        $match:
        {
            timestamp: {$gte: 1464559200}
        }
    }, 
    {
        $group:
        {
            _id:
            {
                $subtract: [
                    "$timestamp", 
                    {"$mod": ["$timestamp", 300]}
                ]
            },
            "timestamp":{"$first":"$timestamp"}, 
            "someKey":{"$first":"$someKey"},
            "someOtherKey":{"$first":"$someOtherKey"},
            "someOtherOtherKey":{"$first":"$someOtherOtherKey"}
        }
    }
])

此查询将从今天午夜开始每300秒(5分钟)给出最后一次结果。 我希望它能在300秒内获取所有文档并计算列someKeysomeOtherKeysomeOtherOtherKey

的平均值

因此,如果我们采用这个示例数据集:

{
    "timestamp":"1464559215",
    "someKey":123,
    "someOtherKey": 345,
    "someOtherOtherKey": 6789
},
{
    "timestamp":"1464559220",
    "someKey":54,
    "someOtherKey": 20,
    "someOtherOtherKey": 511
},
{
    "timestamp":"1464559225",
    "someKey":654,
    "someOtherKey": 10,
    "someOtherOtherKey": 80
},
{
    "timestamp":"1464559505",
    "someKey":90,
    "someOtherKey": 51,
    "someOtherOtherKey": 1
}

查询应返回 2 行,即:

{
    "timestamp":"1464559225",
    "someKey":277,
    "someOtherKey": 125,
    "someOtherOtherKey": 2460
},
{
    "timestamp":"1464559505",
    "someKey":90,
    "someOtherKey": 51,
    "someOtherOtherKey": 1
}

第一个结果计算如下:

Result 1 - someKey = (123+54+654)/3 = 277
Result 1 - someOtherKey = (345+20+10)/3 = 125
Result 1 - someOtherOtherKey = (6789+511+80)/3 = 2460

如何使用聚合函数在mongoshell中进行此计算?

1 个答案:

答案 0 :(得分:2)

基于stackoverflow上给出的回答,我设法得到我想要的。

这是我必须做的大型聚合查询才能得到我的所有结果:

db.Pizza.aggregate([
    {
        $match:
        {
            timestamp: {$gte: 1464559200}
        }
    }, 
    {
        $group: 
        {
            _id:
            {
                $subtract: [
                    '$timestamp', 
                    {$mod: ['$timestamp', 300]}
                ]
            },
            timestamp: {$last: '$timestamp'}, 
            someKey: {$avg: '$someKey'},
            someOtherKey: {$avg: '$someOtherKey'}, 
            someOtherOtherKey: {$avg: '$someOtherOtherKey'}
        }
    },
    {
        $project: 
        {
            _id: 0, 
            timestamp: '$timestamp', 
            someKey: '$someKey', 
            someOtherKey:'$someOtherKey',
            someOtherOtherKey:'$someOtherOtherKey'
        }
    }
])

匹配部分用于获取今天午夜之后的每个结果(今天午夜的时间戳)。

集团部分是最有趣的部分。在这里,我们循环遍历我们找到的每个文档,并计算每300秒(5分钟)的模数,然后我们用模数运算的最后结果填充属性时间戳。

项目部分是从实际结果中删除_id所必需的,因为结果不再代表数据库中的某些内容。

鉴于此答案的答案基于:

MongoDB - Aggregate max/min/average for multiple variables at once

How to subtract in mongodb php

MongoDB : Aggregation framework : Get last dated document per grouping ID

学说解决方案

$collection->aggregate([
    [
        '$match' => [
            'timestamp' => ['$gte' => 1464559200]
        ]
    ],
    [
        '$group' => [
            '_id' => [
                '$subtract' => [
                    '$timestamp',
                    [
                        '$mod' => ['$timestamp',300]
                    ]
                ]
            ],
            'timestamp' => [
                '$last' => '$timestamp'
            ],
            $someKey => [
                '$avg' => '$'.$someKey
            ],
            $someOtherKey => [
                '$avg' => '$'.$someOtherKey
            ],
            $someOtherOtherKey => [
                '$avg' => '$'.$someOtherOtherKey
            ]
        ]
    ]
]);