Question

我正在尝试在独立模式下设置的2节点集群上运行一个简单的python应用程序。主人和工人，而主人也扮演工人的角色。

在下面的代码中，我试图计算500MB文本文件中出现的蛋糕数量，并且使用ExecutorLostFailure失败。

有趣的是，如果我输入100MB的输入文件，应用程序就会运行。

我使用了CDH5.4.4的包版本和YARN，我正在运行Spark 1.3.0。每个节点都有8GB的内存，这些是我的一些配置：

执行者记忆：4g
驱动程序内存：2g
每个工人的核心数：1
序列化器：Kryo

SimpleApp.py：

font-size:100px !important;

提交申请：

from pyspark import SparkContext, SparkConf
sc = SparkContext(appName="Simple App")
logFile = "/user/ubuntu/largeTextFile500m.txt"
logData = sc.textFile(logFile)
cakes = logData.filter(lambda s: "cake" in s).count()
print "Number of cakes: %i" % cakes
sc.stop()

摘自日志：

spark-submit --master spark://master:7077 /home/ubuntu/SimpleApp.py

有什么建议吗？

Spark 1.3.0：ExecutorLostFailure取决于输入文件大小

0 个答案: