应用错误收集

我在Spark作业中正在读取一个巨大的JSON文件

它的格式如下：

"transactionContainer": {
  "transaction": [
  {
    "arrayOfItems": [
      {
        "objectType": "whatever"
      },
      {
        "objectType": "whatever"
      },
      {
        "objectType": "whatever"
      }
    ],
    "header": {
      "objectType": "whatever"
    }
  }
]
}

文件大小随着arrayOfItems中越来越多的项目而增加

通过Spark DataFrame使用此文件时，是否可以使用当前格式的多个分区使用它？

如果它仅包含数组，这行得通吗？

我知道我们可以转换DataFrame使其在加载后在arrayOfItems上进行分区，但我想知道是否可以在初始加载时执行此操作？

Spark数据帧：使用多个分区消耗单个JSON文件

0 个答案: