我正在(尝试)使用json
将大约40个Spark
个大文件(平均每个150 - 200GB)加载到sparklyr
。有些文件完全适合集群的RAM,有些文件太大了。
不幸的是,命令:
spark_read_json(mypath/files_json*, memory = FALSE)
创建大约500k个作业并永久保留。
我一直在玩config <- spark_config()
,config$spark.executor.memory
,config$spark.executor.core
,config$spark.default.parallelism
和其他人,但任务数量没有变化。我确实有一个大型集群。
我觉得这里有一个严重的优化问题。知道我应该在Spark
选项或某个地方更改什么?我拼命试着玩我能想到的所有选项。
感谢!!!