我正在以文本格式在外部表上使用配置单元。我每小时填充一次这个表,但是我按月对表进行分区(数据集相对较小)。我想每小时将新数据插入到某些分区中。
INSERT INTO子句导致在包含旧数据的现有分区中创建新文件。这种方式在月底我将在每个分区中有大约700个小文件。
HIVE是否有办法将数据附加到分区中的旧文件中(不对旧数据使用UNION ALL)?
答案 0 :(得分:1)
不幸的是,目前这是不可能的。希望随着文件追加补丁这些天获得更多的牵引力,它最终将成为附加到现有文件的新功能。
我认为这是Hive的主要缺点之一....特别是当你开始处理更小的插入时。