如何将Hive分区和存储桶中的文件合并为一个大文件?

时间:2019-11-02 09:59:07

标签: azure hadoop hive hdfs hive-metastore

我正在使用Azure HDInsight群集进行大数据处理。几天前,我通过合并许多文件在蜂巢中创建了一个分区存储分区的表。

由于Azure没有提供任何停止群集的选项,因此我不得不删除群集以节省成本。数据独立存储在Azure存储帐户中。当我使用相同的存储帐户创建新集群时,我可以使用HDFS命令查看数据库和表,但是配置单元无法读取该数据库或表,也许配置单元没有关于此的元数据。

我剩下的唯一选择是将所有这些分区和存储桶的文件合并到一个文件中,然后再次创建表。那么,有什么方法可以将该表迁移到另一个数据库或合并它,从而使迁移起来更容易??

1 个答案:

答案 0 :(得分:0)

您可以创建指向EXTERNAL TABLE的{​​{1}}(具有与以前相同的属性)。如前所述,它具有分区,因此您可以运行HDFS location,以便您也可以看到分区。

希望这会有所帮助