Sparklyr:如何提高JSON文件的阅读速度?

时间:2017-06-29 10:52:58

标签: json r apache-spark sparklyr

我正在(尝试)使用json将大约40个Spark个大文件(平均每个150 - 200GB)加载到sparklyr。有些文件完全适合集群的RAM,有些文件太大了。

不幸的是,命令:

spark_read_json(mypath/files_json*, memory = FALSE)

无论我的集群分配是什么(分配的内核数量,执行器数量,RAM等),

创建大约500k个作业并永久保留。

我一直在玩config <- spark_config()config$spark.executor.memoryconfig$spark.executor.coreconfig$spark.default.parallelism和其他人,但任务数量没有变化。我确实有一个大型集群。

我觉得这里有一个严重的优化问题。知道我应该在Spark选项或某个地方更改什么?我拼命试着玩我能想到的所有选项。

感谢!!!

0 个答案:

没有答案