应用错误收集

将Spark的输出合并为一个文件

时间：2015-04-24 06:35:27

标签： hadoop apache-spark hdfs

我理解我的问题类似于Merge Output files after reduce phase，但我认为它可能有所不同，因为我只使用Spark本地计算机而不是实际上是分布式文件系统。

我在一个VM上安装了Spark（用于测试）。输出在几个文件（part-000000，part-000001等等）中给出，名为＆＃39; STjoin＆＃39;在Home / Spark_Hadoop / spark-1.1.1-bin-cdh4 /.

命令hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt似乎不起作用（＆＃34;没有这样的文件或导演＆＃34;）

这是因为此命令仅适用于存储在HDFS中的文件而不适用于本地，或者我是否一般不了解linux地址？（我是linux和HDFS的新手）

1 个答案:

答案 0 :(得分：3)

只需cat /path/to/source/dir/* > /path/to/output/file.txt。 getmerge是仅限HDFS文件的Hadoop版本。