将Spark的输出合并为一个文件

时间:2015-04-24 06:35:27

标签: hadoop apache-spark hdfs

我理解我的问题类似于Merge Output files after reduce phase,但我认为它可能有所不同,因为我只使用Spark本地计算机而不是实际上是分布式文件系统。

我在一个VM上安装了Spark(用于测试)。输出在几个文件(part-000000,part-000001等等)中给出,名为' STjoin'在Home / Spark_Hadoop / spark-1.1.1-bin-cdh4 /.

命令hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt似乎不起作用("没有这样的文件或导演")

这是因为此命令仅适用于存储在HDFS中的文件而不适用于本地,或者我是否一般不了解linux地址? (我是linux和HDFS的新手)

1 个答案:

答案 0 :(得分:3)

只需cat /path/to/source/dir/* > /path/to/output/file.txtgetmerge是仅限HDFS文件的Hadoop版本。