火花设备上没有剩余空间

时间:2018-07-17 02:32:56

标签: apache-spark pyspark

我有一个EMR作业,可读取约1TB数据,对其进行过滤并进行重新分区(重新分区后会有一些联接),但是我的作业在重新分区时失败,错误为“设备上没有空间”。我厌倦了更改“ spark.local.dir”,但没有用。我的工作仅在d2.4xlarge实例上完成,但在具有相似内核和ram的r3.4xlarge上失败。我找不到此问题的根本原因。任何帮助将不胜感激。

谢谢您的时间。

1 个答案:

答案 0 :(得分:0)

我以前在Spark 2.2上遇到过同样的问题。 我可以通过在SPARK_LOCAL_DIRS=/path/to/other/tmp

中设置$SPARK_HOME/conf/spark-env.sh来更改目录

“ spark.local.dir / tmp
用于Spark中“临时”空间的目录,包括映射输出文件和存储在磁盘上的RDD。它应该在系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意:在Spark 1.0及更高版本中,群集管理器设置的SPARK_LOCAL_DIRS(独立,Mesos)或LOCAL_DIRS(YARN)环境变量将对此值进行覆盖。” https://spark.apache.org/docs/latest/configuration.html