在HDFS中合并两个镶木地板文件

时间:2017-06-06 21:48:20

标签: hadoop merge hdfs parquet

我有HDFS格式的parquet文件。我想将这些文件合并为一个大文件。

我该怎么做?

我做了类似下面的事情,但是对于文本文件。

hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file

但无法以parquet格式获得所需的结果。

我如何达到我的要求?

2 个答案:

答案 0 :(得分:0)

无法将parquet文件与hdfs命令合并。

有一个parquet-tools library可以帮助您获得mergingparquet个文件。命令应该是

java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>

答案 1 :(得分:0)

可以使用相同的工具合并Hadoop内的多个文件,只需使用$ hadoop jar而不是$ java -jar ./parquet-tools