Spark在集群中写SaveAsTextFile在哪里?

时间:2015-10-20 20:07:51

标签: apache-spark

我在这里有点不知所措(Spark新手)。我创建了一个EC2集群,并提交了一个Spark作业,该作业在最后一步保存为文本文件。代码读取

reduce_tuples.saveAsTextFile('september_2015')

我提交的python文件的工作目录是/ root。我找不到名为september_2005的目录,如果我再次尝试运行该作业,则会收到错误:

: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists

ec2地址是我要点击的主节点,但我没有 / user / root 文件夹。

似乎Spark正在创建september_2015目录,但 find 找不到它。 Spark在哪里写出结果目录?为什么它指向一个主节点文件系统中不存在的目录?

1 个答案:

答案 0 :(得分:2)

您没有将其保存在本地文件系统中,而是将其保存在hdfs群集中。试试eph*-hdfs/bin/hadoop fs -ls /,然后您应该会看到您的文件。有关更多命令,请参阅eph*-hdfs/bin/hadoop help,例如。 -copyToLocal