我理解我的问题类似于Merge Output files after reduce phase,但我认为它可能有所不同,因为我只使用Spark本地计算机而不是实际上是分布式文件系统。
我在一个VM上安装了Spark(用于测试)。输出在几个文件(part-000000,part-000001等等)中给出,名为' STjoin'在Home / Spark_Hadoop / spark-1.1.1-bin-cdh4 /.
命令hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt
似乎不起作用("没有这样的文件或导演")
这是因为此命令仅适用于存储在HDFS中的文件而不适用于本地,或者我是否一般不了解linux地址? (我是linux和HDFS的新手)
答案 0 :(得分:3)
只需cat /path/to/source/dir/* > /path/to/output/file.txt
。 getmerge
是仅限HDFS文件的Hadoop版本。