在哪里可以找到有关Spark SQL中from_json函数的schema参数的更多详细信息?一位同事给了我一个有效的架构示例,但说实话,我只是不理解,它看起来不像我到目前为止找到的任何示例。发现here的文档似乎缺乏。
答案 0 :(得分:0)
在您共享from_json
函数的链接中,使用此示例:
SELECT from_json('{"a":1, "b":0.8}', 'a INT, b DOUBLE');
Spark SQL支持绝大多数Hive功能,例如defining TYPES
我面临的示例问题要求我解析以下JSON对象:
{'data': [
{
"id":02938,
"price": 2938.0,
"quantity": 1
},
{
"id":123,
"price": 123.5,
"quantity": 2
}
]}
相应的Spark SQL查询如下:
SELECT
from_json('{"data":[{"id":123, "quantity":2, "price":39.5}]}'),
'data array<struct<id:INT, quantity:INT, price:DOUBLE>>').data) AS product_details;
您可以将其与
explode
函数结合使用,以将每个元素提取到其自己的列中。
我建议使用此post,以了解有关为查询构造类型的更多信息。
有关更多示例,请参阅此SO帖子 https://stackoverflow.com/a/55432107/1500443