无法在Presto Athena中将varchar转换为数组

时间:2019-05-16 11:38:20

标签: arrays json varchar presto amazon-athena

我的数据是varchar格式。我想拆分此数组的两个元素,以便随后可以从json中提取键值。

Data format:

[
  {
    "skuId": "5bc87ae20d298a283c297ca1",
    "unitPrice": 0,
    "id": "5bc87ae20d298a283c297ca1",
    "quantity": "1"
  },

{
    "skuId": "182784738484wefhdchs4848",
    "unitPrice": 50,
    "id": "5bc87ae20d298a283c297ca1",
    "quantity": "4"
  },
]

例如我想从上面的列中提取臭味。 因此,提取后的数据应如下所示:

1 5bc87ae20d298a283c297ca1
2 182784738484wefhdchs4848

投射到数组不起作用 例如select cast(col as array)给出以下错误: 未知类型:数组

因此,我无法取消嵌套该数组的操作。

我该如何解决雅典娜的这个问题?

1 个答案:

答案 0 :(得分:4)

您可以结合使用parsing the value as JSON,将其强制转换为结构化SQL类型(数组/映射/行)和UNNEST WITH ORDINALITY,以从数组中将元素提取为单独的行。请注意,这仅在JSON有效负载中的数组元素没有结尾逗号的情况下才有效。您的示例有一个,但已从下面的示例中删除。

WITH data(value) AS (VALUES
 '[
    {
      "skuId": "5bc87ae20d298a283c297ca1",
      "unitPrice": 0,
      "id": "5bc87ae20d298a283c297ca1",
      "quantity": "1"
    },
    {
      "skuId": "182784738484wefhdchs4848",
      "unitPrice": 50,
      "id": "5bc87ae20d298a283c297ca1",
      "quantity": "4"
    }
  ]'
),
parsed(entries) AS (
  SELECT cast(json_parse(value) AS array(row(skuId varchar)))
  FROM data
)
SELECT ordinal, skuId
FROM parsed, UNNEST(entries) WITH ORDINALITY t(skuId, ordinal)

产生:

 ordinal |          skuId
---------+--------------------------
       1 | 5bc87ae20d298a283c297ca1
       2 | 182784738484wefhdchs4848
(2 rows)