火花容器被纱线杀死

时间:2017-07-14 02:59:16

标签: apache-spark yarn

我有一个675GB镶木地板文件的大量数据集,带有快速压缩,我必须加入4,5个大小为10 GB的桌子。我有一个500多个节点的集群,每个节点有128GB内存,但我只能运行一个执行器,最多只有28 GB,否则纱线不会分配内存。 请建议我应该如何处理这个场景。 目前我正在运行pyspark 1.6,我只运行每个节点1个执行器,26 Gb ram。 但是如果我在蜂巢中运行整个连接需要时间但是要完成。 我应该如何有效地使用我的集群并使用此加入火花

由于 sPradeep

1 个答案:

答案 0 :(得分:1)

您应该尝试增加spark.sql.shuffle.partitions,默认为200.此参数控制进行混洗时的分区数(以及任务)(例如,在连接,groupBy等期间)。尝试5000的值,看它是否有效。