在AWS Athena中提取数组中的json

时间:2020-05-23 08:07:50

标签: presto amazon-athena

我已将kubernetes的日志发送到S3存储桶,并希望使用Athena进行查询

日志看起来像这样

[{      "date":1589895855.077230,
      "log":"192.168.85.35 - - [19/May/2020:13:44:15 +0000] \"GET /healthz HTTP/1.1\" 200 3284 \"-\" \"ELB-HealthChecker/2.0\" \"-\"",
      "stream":"stdout",
      "time":"2020-05-19T13:44:15.077230187Z",
      "kubernetes":{
         "pod_name":"myapp-deployment-cd984ffb-kjfbm",
         "namespace_name":"master",
         "pod_id":"eace0175-99cd-11ea-95e4-0aee746ae5d6",
         "labels":{
            "app":"myapp",
            "pod-template-hash":"cd984ffb"
          },
         "annotations":{
            "cluster-autoscaler.kubernetes.io/safe-to-evict":"false",
            "kubernetes.io/psp":"eks.privileged"
          },
         "host":"ip-1-1-1-1.eu-north-1.compute.internal",
         "container_name":"myapp",
         "docker_id":"cb2cda1ed46c5f09d15090fc3f654b1de35970001e366923287cfbd4a4abf4a1"
      }
},
{      "date":1589995860.077230,
      "log":"192.168.1.40 - - [20/May/2020:17:31:00 +0000] \"GET /healthz HTTP/1.1\" 200 3284 \"-\" \"ELB-HealthChecker/2.0\" \"-\"",
      "stream":"stdout",
      "time":"2020-05-20T17:31:00.077230187Z",
      "kubernetes":{
         "pod_name":"myapp-deployment-cd984ffb-kjfbm",
         "namespace_name":"master",
         "pod_id":"eace0175-99cd-11ea-95e4-0aee746ae5d6",
         "labels":{
            "app":"myapp",
            "pod-template-hash":"cd984ffb"
          },
         "annotations":{
            "cluster-autoscaler.kubernetes.io/safe-to-evict":"false",
            "kubernetes.io/psp":"eks.privileged"
          },
         "host":"ip-1-1-1-1.eu-north-1.compute.internal",
         "container_name":"myapp",
         "docker_id":"cb2cda1ed46c5f09d15090fc3f654b1de35970001e366923287cfbd4a4abf4a1"
      }
},]

所以基本上有json对象的数组。

我在Athena中使用CREATE EXTERNAL TABLE查询来创建表。 我尝试过的是:

CREATE EXTERNAL TABLE IF NOT EXISTS athenadb.mytable (
                   `data` string
                 )
                 ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
                 LOCATION 's3://mybucket/testlog'
                 TBLPROPERTIES ('has_encrypted_data'='false');

这只会将数组中的第一项读入表中,除非我指定了更多的行,例如

data1字符串

data2字符串

data3字符串

但是,由于我不知道数组中有多少个项目,所以我需要更多动态的东西。

然后我尝试了

CREATE EXTERNAL TABLE IF NOT EXISTS athenadb.mytable (
                   `data` string
                 )
                 LOCATION 's3://mybucket/testlog'
                 TBLPROPERTIES ('has_encrypted_data'='false');

现在,我在表的一行中获得了整个日志(两个条目)。

从这里开始,我尝试使用UNNEST,但是出现“无法取消嵌套类型:varchar”的错误

将每个{}放入表中自己的行的最简单方法是什么?也许可以从CREATE EXTERNAL TABLE中完成,而之后不需要任何额外的查询?

编辑:

现在也尝试过

SELECT data
FROM mytable
CROSS JOIN UNNEST(CAST(json_parse(data) AS array)) AS data2

但是我得到“未知类型:数组”

我在这里找到了类似的问题:How do I import an array of data into separate rows in a hive table?

但是似乎没有任何建议的解决方案可以创建想要的结果。

1 个答案:

答案 0 :(得分:0)

unnestcasting json to array(json)组合在一起:

SELECT data, e
FROM mytable
CROSS JOIN UNNEST(CAST(json_parse(data) AS array(json))) t(e)

注意:array<json>array(json)类型定义的旧版本。后者符合SQL标准。