json - Sparklyr：如何提高JSON文件的阅读速度？

我正在（尝试）使用json将大约40个Spark个大文件（平均每个150 - 200GB）加载到sparklyr。有些文件完全适合集群的RAM，有些文件太大了。

不幸的是，命令：

spark_read_json(mypath/files_json*, memory = FALSE)

无论我的集群分配是什么（分配的内核数量，执行器数量，RAM等），

创建大约500k个作业并永久保留。

我一直在玩config <- spark_config()，config$spark.executor.memory，config$spark.executor.core，config$spark.default.parallelism和其他人，但任务数量没有变化。我确实有一个大型集群。

我觉得这里有一个严重的优化问题。知道我应该在Spark选项或某个地方更改什么？我拼命试着玩我能想到的所有选项。

感谢!!!

Sparklyr：如何提高JSON文件的阅读速度？

0 个答案: