应用错误收集

火花容器被纱线杀死

时间：2017-07-14 02:59:16

标签： apache-spark yarn

我有一个675GB镶木地板文件的大量数据集，带有快速压缩，我必须加入4,5个大小为10 GB的桌子。我有一个500多个节点的集群，每个节点有128GB内存，但我只能运行一个执行器，最多只有28 GB，否则纱线不会分配内存。请建议我应该如何处理这个场景。目前我正在运行pyspark 1.6，我只运行每个节点1个执行器，26 Gb ram。但是如果我在蜂巢中运行整个连接需要时间但是要完成。我应该如何有效地使用我的集群并使用此加入火花

由于 sPradeep

1 个答案:

答案 0 :(得分：1)

您应该尝试增加spark.sql.shuffle.partitions，默认为200.此参数控制进行混洗时的分区数（以及任务）（例如，在连接，groupBy等期间）。尝试5000的值，看它是否有效。

由于超过内存限制而被YARN杀死的容器。使用52.6 GB的50 GB物理内存。考虑提升spark.yarn.executor.memoryOverhead
YARN Container在被杀后有潜在的进程
记录以找出我的Spark工作被Yarn杀死的原因
火花容器被YARN杀死超过内存限制
在分组中由YARN杀死的火花容器
Yarn Spark HBase - 由YARN杀死的ExecutorLostFailure容器超出内存限制
hadoop nodemanager被SIGSEGV杀死
火花容器被纱线杀死
由于超过内存限制而被YARN杀死的容器
纱线上的火花-AM容器抢占与非AM容器抢占

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？