Question

我正在使用 pyspark 从JSON文件创建数据框。

JSON文件的结构如下：

[
  {
    "Volcano Name": "Abu",
    "Country": "Japan",
    "Region": "Honshu-Japan",
    "Location": {
      "type": "Point",
      "coordinates": [
        131.6,
        34.5
      ]
    },
    "Elevation": 571,
    "Type": "Shield volcano",
    "Status": "Holocene",
    "Last Known Eruption": "Unknown",
    "id": "4cb67ab0-ba1a-0e8a-8dfc-d48472fd5766"
  },
  {
    "Volcano Name": "Acamarachi",
    "Country": "Chile",
    "Region": "Chile-N",
    "Location": {
      "type": "Point",
      "coordinates": [
        -67.62,
        -23.3
}]

我将使用以下代码行读取文件：

myjson = spark.read.json("/FileStore/tables/sample.json")

但是，我不断收到以下错误消息：

火花作业
  myjson：pyspark.sql.dataframe.DataFrame
  _corrupt_record：string

有人可以让我知道我做错了什么吗

json文件的结构是否有问题？

Answer 1

似乎您的JSON是多行Json，所以为什么要解决此问题，下面要解决的是代码段，

myjson = spark.read.option("multiline", "true").option("mode", "PERMISSIVE")
         .json("/FileStore/tables/sample.json")

希望这可以解决问题。

无法在Databricks中使用pyspark读取json文件

1 个答案: