Question

在哪里可以找到有关Spark SQL中from_json函数的schema参数的更多详细信息？一位同事给了我一个有效的架构示例，但说实话，我只是不理解，它看起来不像我到目前为止找到的任何示例。发现here的文档似乎缺乏。

Answer 1

在您共享from_json函数的链接中，使用此示例：

SELECT from_json('{"a":1, "b":0.8}', 'a INT, b DOUBLE');

Spark SQL支持绝大多数Hive功能，例如defining TYPES

我面临的示例问题要求我解析以下JSON对象：

{'data': [
    {
       "id":02938, 
       "price": 2938.0, 
       "quantity": 1
    }, 
    {
       "id":123, 
       "price": 123.5, 
       "quantity": 2
    }
]}

相应的Spark SQL查询如下：

SELECT 
    from_json('{"data":[{"id":123, "quantity":2, "price":39.5}]}'), 
    'data array<struct<id:INT, quantity:INT, price:DOUBLE>>').data) AS product_details;

您可以将其与explode函数结合使用，以将每个元素提取到其自己的列中。

我建议使用此post，以了解有关为查询构造类型的更多信息。

有关更多示例，请参阅此SO帖子 https://stackoverflow.com/a/55432107/1500443

Spark SQL from_json文档

1 个答案: