我正在使用 pyspark 从JSON文件创建数据框。
JSON文件的结构如下:
[
{
"Volcano Name": "Abu",
"Country": "Japan",
"Region": "Honshu-Japan",
"Location": {
"type": "Point",
"coordinates": [
131.6,
34.5
]
},
"Elevation": 571,
"Type": "Shield volcano",
"Status": "Holocene",
"Last Known Eruption": "Unknown",
"id": "4cb67ab0-ba1a-0e8a-8dfc-d48472fd5766"
},
{
"Volcano Name": "Acamarachi",
"Country": "Chile",
"Region": "Chile-N",
"Location": {
"type": "Point",
"coordinates": [
-67.62,
-23.3
}]
我将使用以下代码行读取文件:
myjson = spark.read.json("/FileStore/tables/sample.json")
但是,我不断收到以下错误消息:
火花作业
myjson:pyspark.sql.dataframe.DataFrame
_corrupt_record:string
有人可以让我知道我做错了什么吗
json文件的结构是否有问题?
答案 0 :(得分:0)
似乎您的JSON是多行Json,所以为什么要解决此问题,下面要解决的是代码段,
myjson = spark.read.option("multiline", "true").option("mode", "PERMISSIVE")
.json("/FileStore/tables/sample.json")
希望这可以解决问题。