将增量数据加载到hive / impala表的最佳方法是什么?
我遵循了以下步骤,但未能成功。
当我依次运行oozie工作流程时,上面的方法工作正常。当我在加载数据时同时调用多个作业时。
我无法按顺序运行数据加载。任何有助于提高效率的帮助,以便我可以运行同时加载数据的并行作业。
答案 0 :(得分:0)
在我们的例子中,增量数据每次都会进入Hive表中的新分区。因此,在步骤3中(在上述步骤中),我们只需在表中添加一个新分区。
如果多个工作流并行工作,如果每个工作流都将数据加载到新分区中,它应该可以正常工作。