我正在尝试在独立模式下设置的2节点集群上运行一个简单的python应用程序。主人和工人,而主人也扮演工人的角色。
在下面的代码中,我试图计算500MB文本文件中出现的蛋糕数量,并且使用ExecutorLostFailure失败。
有趣的是,如果我输入100MB的输入文件,应用程序就会运行。
我使用了CDH5.4.4的包版本和YARN,我正在运行Spark 1.3.0。 每个节点都有8GB的内存,这些是我的一些配置:
SimpleApp.py:
font-size:100px !important;
提交申请:
from pyspark import SparkContext, SparkConf
sc = SparkContext(appName="Simple App")
logFile = "/user/ubuntu/largeTextFile500m.txt"
logData = sc.textFile(logFile)
cakes = logData.filter(lambda s: "cake" in s).count()
print "Number of cakes: %i" % cakes
sc.stop()
摘自日志:
spark-submit --master spark://master:7077 /home/ubuntu/SimpleApp.py
有什么建议吗?