我有HDFS
格式的parquet
文件。我想将这些文件合并为一个大文件。
我该怎么做?
我做了类似下面的事情,但是对于文本文件。
hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file
但无法以parquet
格式获得所需的结果。
我如何达到我的要求?
答案 0 :(得分:0)
无法将parquet
文件与hdfs命令合并。
有一个parquet-tools library可以帮助您获得merging
个parquet
个文件。命令应该是
java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>
答案 1 :(得分:0)
可以使用相同的工具合并Hadoop内的多个文件,只需使用$ hadoop jar而不是$ java -jar ./parquet-tools