Spark 1.3.0:ExecutorLostFailure取决于输入文件大小

时间:2015-08-13 10:06:43

标签: apache-spark apache-spark-1.3

我正在尝试在独立模式下设置的2节点集群上运行一个简单的python应用程序。主人和工人,而主人也扮演工人的角色。

在下面的代码中,我试图计算500MB文本文件中出现的蛋糕数量,并且使用ExecutorLostFailure失败。

有趣的是,如果我输入100MB的输入文件,应用程序就会运行。

我使用了CDH5.4.4的包版本和YARN,我正在运行Spark 1.3.0。 每个节点都有8GB的内存,这些是我的一些配置:

  • 执行者记忆:4g
  • 驱动程序内存:2g
  • 每个工人的核心数:1
  • 序列化器:Kryo

SimpleApp.py:

font-size:100px !important;

提交申请:

from pyspark import SparkContext, SparkConf
sc = SparkContext(appName="Simple App")
logFile = "/user/ubuntu/largeTextFile500m.txt"
logData = sc.textFile(logFile)
cakes = logData.filter(lambda s: "cake" in s).count()
print "Number of cakes: %i" % cakes
sc.stop()

摘自日志:

spark-submit --master spark://master:7077 /home/ubuntu/SimpleApp.py

有什么建议吗?

0 个答案:

没有答案