无法在Databricks中使用pyspark读取json文件

时间:2019-12-24 16:51:37

标签: pyspark azure-databricks

我正在使用 pyspark 从JSON文件创建数据框

JSON文件的结构如下:

[
  {
    "Volcano Name": "Abu",
    "Country": "Japan",
    "Region": "Honshu-Japan",
    "Location": {
      "type": "Point",
      "coordinates": [
        131.6,
        34.5
      ]
    },
    "Elevation": 571,
    "Type": "Shield volcano",
    "Status": "Holocene",
    "Last Known Eruption": "Unknown",
    "id": "4cb67ab0-ba1a-0e8a-8dfc-d48472fd5766"
  },
  {
    "Volcano Name": "Acamarachi",
    "Country": "Chile",
    "Region": "Chile-N",
    "Location": {
      "type": "Point",
      "coordinates": [
        -67.62,
        -23.3
}]

我将使用以下代码行读取文件:

myjson = spark.read.json("/FileStore/tables/sample.json")

但是,我不断收到以下错误消息:

  

火花作业
  myjson:pyspark.sql.dataframe.DataFrame
  _corrupt_record:string

有人可以让我知道我做错了什么吗

json文件的结构是否有问题?

1 个答案:

答案 0 :(得分:0)

似乎您的JSON是多行Json,所以为什么要解决此问题,下面要解决的是代码段,

myjson = spark.read.option("multiline", "true").option("mode", "PERMISSIVE")
         .json("/FileStore/tables/sample.json")

希望这可以解决问题。