从s3

时间:2015-11-27 11:19:08

标签: amazon-web-services amazon-s3 pyspark emr

我有一个在EMR上运行并从s3读取csv文件的应用程序。 然而,当我尝试从s3读取该文件时,整个事情似乎停止了(我已经让它运行了大约一个小时)。没有任何事情发生,除了应用程序仍在运行之外,没有任何内容写入日志。运行此应用程序的步骤不会失败!

我已尝试通过spark-submit的标记--files将文件复制到群集,并使用sc.textFile(filename)直接在应用程序中读取该文件。

我有什么遗失的吗?

1 个答案:

答案 0 :(得分:0)

过了一会儿我终于又回到了那个问题并且可以自己“解决”它(我真的不知道问题是什么,虽然......) 似乎spark无法分配工作节点。将spark.dynamicAllocation.enabled设置为true后,现在一切正常。