Hive:向现有表添加行

时间:2012-10-23 19:53:19

标签: hadoop hive

我计划使用hadoop和hive来解决以下问题:

我有一个数据流,比如表示给定时间戳的测量温度的形式(时间戳,温度)。我需要每天计算一些聚合(例如最大值)。聚合需要每天计算一次(例如在午夜)。

我想过以某种方式加载数据到hive,按日期划分它。但是,有一个问题 - 流中的数据不需要按时间戳排序,我收到延迟记录:记录甚至可能比它应该晚几天到达。在这种情况下,在生成通常的聚合时,我需要计算包含该时间戳的日期的聚合。

直观地说,我想将后期记录添加到hive表中的相应分区。是否可以在不重新加载整个分区的情况下执行此操作? (重新加载分区是一项代价高昂的操作吗?)

1 个答案:

答案 0 :(得分:2)

我认为目前不可能将记录添加到分区(或表格),因此您必须在将分区加载到表之前对记录进行排序 - 看起来像对我来说是一个两阶段的过程。

我相信你可以覆盖一个分区,所以至少你可以处理修改过的分区。

目前,至少,蜂巢是一个批量导向的系统。