具有日期直方图的管道聚合不会返回预期结果

时间:2019-03-10 13:31:07

标签: elasticsearch aggregation cardinality date-histogram

我面临有关将管道聚合与日期直方图一起使用的问题。 我需要将数据从“ 2019-03-08T06:00:00Z”过滤到“ 2019-03-09T10:00:00Z”,并对其进行直方图聚合。然后根据基数agg求和后计算平均值。

{
  "size": 0,
  "query": {
        "bool" : {
            "filter": {
                "range" : {
                    "recordTime" : {
                        "gte" : "2019-03-08T06:00:00Z",
                        "lte" : "2019-03-09T10:00:00Z"
                    }
                }
            }
        }
    }, 
    "aggs" : {
        "events_per_bucket" : {
            "date_histogram" : {
                "field" : "eventTime",
                "interval" : "1h"
            },
            "aggs": {
                "cards_per_bucket": {
                    "cardinality": {
                        "field": "KANBAN_PKKEY.keyword"
                    }
                }
            }
        },
        "avg_cards_per_bucket": {
            "avg_bucket": {
                "buckets_path": "events_per_bucket>cards_per_bucket.value"
            }
        }
    }
}

结果:

{
    "took": 4,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 2,
        "max_score": 0,
        "hits": []
    },
    "aggregations": {
        "events_per_bucket": {
            "buckets": [
                {
                    "key_as_string": "2019-03-08T06:00:00.000Z",
                    "key": 1552024800000,
                    "doc_count": 1,
                    "cards_per_bucket": {
                        **"value": 1**
                    }
                },
                {
                    "key_as_string": "2019-03-08T07:00:00.000Z",
                    "key": 1552028400000,
                    "doc_count": 0,
                    "cards_per_bucket": {
                        **"value": 0**
                    }
                },
                {
                    "key_as_string": "2019-03-08T08:00:00.000Z",
                    "key": 1552032000000,
                    "doc_count": 1,
                    "cards_per_bucket": {
                        **"value": 1**
                    }
                }
            ]
        },
        "avg_cards_per_bucket": {
            **"value": 1**
        }
    }
}

问题是为什么平均价值是“ 1”?应该是:2/3 = 0.6666 为什么忽略0值基数桶? 如果我删除基数agg并在doc_count( events_per_bucket> _count )上进行平均,则效果很好。 MAX MIN SUM 也会发生相同的情况。 任何帮助,将不胜感激! 谢谢。

1 个答案:

答案 0 :(得分:1)

您应该告诉聚合管道,如果存储桶中有空白(例如,密钥为1552028400000的存储桶)该怎么办。默认情况下,间隙将被忽略。您可能希望将缺失值替换为零。可以通过将gap_policy参数添加到聚合管道来完成此操作:

...
  "avg_cards_per_bucket": {
    "avg_bucket": {
      "buckets_path": "events_per_bucket>cards_per_bucket.value",
      "gap_policy": "insert_zeros"
    }
  }
...

Elastic documentation中的更多详细信息。