告诉EMR Spark不要写入HDFS

时间:2018-07-06 20:09:14

标签: apache-spark amazon-emr

我有一个Spark作业在AWS的EMR上运行,并且不断出现此错误:

  

...只能复制到0个节点,而不能复制到   minReplication(= 1)。有3个datanode正在运行...

我非常确定问题是由于存储空间不足(EMR允许每个实例最大存储100 GB)引起的。我的EC2实例每个都有480 GB的RAM(r4.16xlarge实例类型),因此,如果可以避免写入磁盘,那应该没问题。我怎么能告诉我的Spark作业可以不必将任何内容复制到HDFS?我想我将minReplication设置为0。

0 个答案:

没有答案