如何将hive partitoned数据合并到一个大文件中?

时间:2017-12-22 10:59:01

标签: hive hadoop-partitioning merging-data

我在日期和小时列上分区了hive表。当我加载数据时,我将创建24个文件。我想将这24个文件合并到一个文件中。谁能建议我解决方案

1 个答案:

答案 0 :(得分:2)

如果您希望在将数据插入分区文件时只有一个文件,那么您可以按照以下方式使用您的配置单元:

  • 按日期分区
  • 在任何一列上发布,只有一个桶。

由于您的桶号为1,因此插入后您的所有数据都将存储在文件中。

另一种方法是使用hdfs命令合并它,如下所示

hadoop fs -cat hive_table_data_folder/p* > new_file_name