当尝试在本地EMR中存储Spark的输出时,我获得了大量IOExceptions: Mkdirs failed to create
例外。我猜这是一些许可问题,但我不确定如何测试它。
不应该使用简单的命令(PySpark)df.write.parquet("hdfs:///home/hadoop/test_out")
吗?我需要周围的任何东西吗?如何检查执行此操作的用户是什么?
Spark作业通过spark-submit
提交,这是我的机器通过aws emr add-steps
唤起的。
目标是保存到S3之前的中间步骤。