EMR Spark本地节省

时间:2018-03-22 22:47:08

标签: apache-spark pyspark spark-dataframe emr amazon-emr

当尝试在本地EMR中存储Spark的输出时,我获得了大量IOExceptions: Mkdirs failed to create例外。我猜这是一些许可问题,但我不确定如何测试它。

不应该使用简单的命令(PySpark)df.write.parquet("hdfs:///home/hadoop/test_out")吗?我需要周围的任何东西吗?如何检查执行此操作的用户是什么?

Spark作业通过spark-submit提交,这是我的机器通过aws emr add-steps唤起的。

目标是保存到S3之前的中间步骤。

0 个答案:

没有答案