Spark数据帧:使用多个分区消耗单个JSON文件

时间:2019-04-10 13:17:59

标签: apache-spark apache-spark-sql databricks

我在Spark作业中正在读取一个巨大的JSON文件

它的格式如下:

"transactionContainer": {
  "transaction": [
  {
    "arrayOfItems": [
      {
        "objectType": "whatever"
      },
      {
        "objectType": "whatever"
      },
      {
        "objectType": "whatever"
      }
    ],
    "header": {
      "objectType": "whatever"
    }
  }
]
}

文件大小随着arrayOfItems中越来越多的项目而增加

通过Spark DataFrame使用此文件时,是否可以使用当前格式的多个分区使用它?

如果它仅包含数组,这行得通吗?

我知道我们可以转换DataFrame使其在加载后在arrayOfItems上进行分区,但我想知道是否可以在初始加载时执行此操作?

0 个答案:

没有答案