我在这里有点不知所措(Spark新手)。我创建了一个EC2集群,并提交了一个Spark作业,该作业在最后一步保存为文本文件。代码读取
reduce_tuples.saveAsTextFile('september_2015')
我提交的python文件的工作目录是/ root。我找不到名为september_2005的目录,如果我再次尝试运行该作业,则会收到错误:
: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists
ec2地址是我要点击的主节点,但我没有 / user / root 文件夹。
似乎Spark正在创建september_2015目录,但 find 找不到它。 Spark在哪里写出结果目录?为什么它指向一个主节点文件系统中不存在的目录?
答案 0 :(得分:2)
您没有将其保存在本地文件系统中,而是将其保存在hdfs群集中。试试eph*-hdfs/bin/hadoop fs -ls /
,然后您应该会看到您的文件。有关更多命令,请参阅eph*-hdfs/bin/hadoop help
,例如。 -copyToLocal
。