使用HIVE将新字段添加到现有ORC文件中

时间:2018-07-17 17:39:36

标签: hive orc

根据以下情况评估所有输入-

AS-IS流程--从源系统中,我们接收CSV文件。我们使用HIVE整理这些CSV文件,并将它们加载到ORC文件格式的s3中。我们已经在AWS s3中积累了两年的历史数据,这些历史数据以ORC文件格式组织,并按列C5之一进行分区。

例如当前文件(csv和orc)C1,C2,C3,C4,C5中的列

TO-BE流程-的要求是,源系统要在csv文件的末尾添加新列。 新文件C1,C2,C3,C4,C5, C6,C7 中的列 今后将需要填充字段C6和C7。

在Hive中,我们目前正在做,并基于分区列C5插入显式写入。

这里的问题是我们可以将新文件(具有其他字段C6和C7)堆叠到现有的ORC文件上吗?如果是,建议的步骤是什么。我们是否需要重写历史文件并为C6和C7创建空白字段,因为我们永远不会获得这些字段的历史数据?否则它将自动显示NULL?

0 个答案:

没有答案