我在Spark作业中正在读取一个巨大的JSON文件
它的格式如下:
"transactionContainer": {
"transaction": [
{
"arrayOfItems": [
{
"objectType": "whatever"
},
{
"objectType": "whatever"
},
{
"objectType": "whatever"
}
],
"header": {
"objectType": "whatever"
}
}
]
}
文件大小随着arrayOfItems中越来越多的项目而增加
通过Spark DataFrame使用此文件时,是否可以使用当前格式的多个分区使用它?
如果它仅包含数组,这行得通吗?
我知道我们可以转换DataFrame使其在加载后在arrayOfItems上进行分区,但我想知道是否可以在初始加载时执行此操作?