存储JSON数组字符串elasticsearch Bug

时间:2017-10-14 21:09:16

标签: elasticsearch kibana elasticsearch-dsl

我正在观察Elasticsearch 5.2中出现的一些奇怪的行为并且它无法调试 - 因为没有抛出错误,我也无法在线找到类似的问题/文档。

我将一个JSON数组存储为elasticsearch中的“字符串”(使用python的json.dumps()) - 长话短说,我必须这样做。但是,当我执行DSL查询时,仅显示包含1个对象的JSON数组(存储为单个字符串)。如果大于1,那么它只返回一个空桶0对象。我将它们存储在一个名为“元数据”的字段中。

我很困惑为什么只显示数据的子集,而忽略其他数据(json数组中有多个对象)。数据编码为字符串。我知道存储在索引中的数据。我可以在kibana“发现”中看到它 - 因为我可以看到包含多个对象的大型JSON字符串。

示例1(JSON String w / 1对象):

  

[{“得分”:0.8829717636108398,“身高”:0.875460147857666,“宽度”:   0.3455989360809326,“y”:0.08105117082595825,“x”:0.5616265535354614,“note”:“box1”}]

示例2:

  

[{“得分”:0.8829717636108398,“身高”:0.875460147857666,“宽度”:   0.3455989360809326,“y”:0.08105117082595825,“x”:0.5616265535354614,“note”:“box1”},{“score”:0.6821991136108398,“height”:   0.875460147857666,“width”:0.3455989360809326,“y”:0.08105117082595825,“x”:0.5616265535354614,“note”:“box2”}]

这是我的问题:

{
  "query": {
    "bool": {
      "must": [
        {
          "query_string": {
            "analyze_wildcard": true,
            "query": "*"
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1508012482796,
              "lte": 1508014282797,
              "format": "epoch_millis"
            }
          }
        }
      ],
      "must_not": []
    }
  },
  "size": 0,
  "_source": {
    "excludes": []
  },
  "aggs": {
    "5": {
      "terms": {
        "field": "metadata.keyword",
        "size": 31,
        "order": {
          "_count": "desc"
        }
      }
    }
  }
}

此查询仅返回包含1个对象的字符串。见下文:

{
  "took": 4,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 4214,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "5": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 35,
      "buckets": [
        {
          "key": "[]",
          "doc_count": 102
        },
        {
          "key": "{}",
          "doc_count": 8
        },
        {
          "key": "[{\"score\": 0.9015679955482483, \"height\": 0.8632315695285797, \"width\": 0.343660831451416, \"y\": 0.08102986216545105, \"x\": 0.5559845566749573, \"note\": \"box11\"}]",
          "doc_count": 6
        },
        {
          "key": "[{\"score\": 0.6365205645561218, \"height\": 0.9410756528377533, \"width\": 0.97696852684021, \"y\": 0.04701271653175354, \"x\": 0.013666868209838867, \"note\": \"box17\"}]",
          "doc_count": 4
        },
...
}

如所观察到的,仅返回具有1个对象(即[{..}])的JSON字符串的数据/可见。它完全忽略了具有多个对象的字符串(即[{...},{...}])。

更多澄清:

  • 它使用默认映射
  • 我能够获取JSON字符串(无论对象的数量) 当按文档ID查询或使用“精确字段值匹配”时)

1 个答案:

答案 0 :(得分:2)

如果您使用默认映射,这很可能是因为您的关键字映射具有ignore_above: 256设置,如下所示:

{
  "mappings": {
    "my_type": {
      "properties": {
        "metadata": {
          "type":  "keyword",
          "ignore_above": 256
        }
      }
    }
  }
}

您可以增加该限制,以便为长度超过256个字符的JSON字符串编制索引。