Question

这是我的JSON

[
    {"string":"string1","int":1,"array":[1,2,3],"dict": {"key": "value1"}},
    {"string":"string2","int":2,"array":[2,4,6],"dict": {"key": "value2"}}
]

这是我的解析代码：

val mdf = sparkSession.read.option("multiline", "true").json("multi2.json")
mdf.show(false)

输出：

+---------------+---------+--------+----+-------+
|_corrupt_record|array    |dict    |int |string |
+---------------+---------+--------+----+-------+
|[              |null     |null    |null|null   |
|null           |[1, 2, 3]|[value1]|1   |string1|
|null           |[2, 4, 6]|[value2]|2   |string2|
|]              |null     |null    |null|null   |
+---------------+---------+--------+----+-------+

为什么我有_corrupt_record，一切看起来都好？为什么dict列只给出值而不是键？

由于

Answer 1

这是一个错字。选项名称为multiLine而非multiline。

Answer 2

从Spark 2.2.0开始支持“multiLine”选项将其与2.1.0 documentation

进行对比

使用＆gt; 2.2.0，您的示例代码与数据一起工作。

关于dict列，它仍将仅显示值，但会保留架构。您可以通过以下方式进行验证：

scala> mdf.printSchema
root
 |-- array: array (nullable = true)
 |    |-- element: long (containsNull = true)
 |-- dict: struct (nullable = true)
 |    |-- key: string (nullable = true)
 |-- int: long (nullable = true)
 |-- string: string (nullable = true)

修改我意识到，大部分信息已经here

Spark读取JSON的列已损坏

2 个答案: