将数据加载到Hive / Impala中

时间:2014-04-16 18:30:36

标签: hadoop hive oozie impala

将增量数据加载到hive / impala表的最佳方法是什么?

我遵循了以下步骤,但未能成功。

  • 从MR程序中,输出已写入HDFS中的临时文件夹。
  • 定义了指向临时文件夹(MR的输出文件夹)的外部临时表
  • 从临时表中添加了加载语句到我的目标表。
  • 放下临时表&也是HDFS中的临时文件夹。

当我依次运行oozie工作流程时,上面的方法工作正常。当我在加载数据时同时调用多个作业时。

我无法按顺序运行数据加载。任何有助于提高效率的帮助,以便我可以运行同时加载数据的并行作业。

1 个答案:

答案 0 :(得分:0)

在我们的例子中,增量数据每次都会进入Hive表中的新分区。因此,在步骤3中(在上述步骤中),我们只需在表中添加一个新分区。

如果多个工作流并行工作,如果每个工作流都将数据加载到新分区中,它应该可以正常工作。