使用NaN值对百分位数聚合排序

时间:2018-10-10 07:59:25

标签: elasticsearch nan percentile elasticsearch-aggregation

我正在使用ElasticSearch 2.3.3,并且具有以下聚合:

"aggregations": {
        "mainBreakdown": {
            "terms": {
                "field": "location_i",
                "size": 10,
                "order": [
                    {
                        "comments>medianTime.50": "asc"
                    }
                ]
            },
            "aggregations": {
                "comments": {
                    "filter": {
                        "term": {
                            "type_i": 120
                        }
                    },
                    "aggregations": {
                        "medianTime": {
                            "percentiles": {
                                "field": "time_l",
                                "percents": [
                                    50.0
                                ]
                            }
                        }
                    }
                }
            }
        }
    }

为了更好地理解,我在字段名称中添加了一个后缀,用于说明字段映射:

  • _i =整数
  • _l = long(时间戳)

聚合响应为:

"aggregations": {
    "mainBreakdown": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": 100,
          "doc_count": 2,
          "comments": {
            "doc_count": 1,
            "medianTime": {
              "values": {
                "50.0": 20113
              }
            }
          }
        },
        {
          "key": 121,
          "doc_count": 14,
          "comments": {
            "doc_count": 0,
            "medianTime": {
              "values": {
                "50.0": "NaN"
              }
            }
          }
        }
      ]
    }
}

我的问题是medianTime聚合有时具有NaN的值,因为父聚合comments具有0个匹配的文档,然后带有NaN的结果将始终在“ asc”和“ desc”顺序上都排在最后。
我尝试在"missing": 0聚合中添加percentiles,但是它仍然返回NaN

您能帮我按中值时间对存储分区进行排序吗?当它是“ asc”时,对NaN值的排序将是第一个,而当其“ desc”值将是最后一个?

1 个答案:

答案 0 :(得分:0)

NaN不是数字,因此它们总是倒数第二个。
在对elasticsearch github进行简短讨论之后,我们决定了处理NaN的适当方法。
https://github.com/elastic/elasticsearch/issues/36402