应用错误收集

Apache Hive和记录更新

时间：2015-12-26 01:17:42

标签： apache-hive

我有流媒体数据进入我的消费者应用程序，我最终想要在Hive / Impala中显示。一种方法是使用基于Hive的API将批量更新插入到Hive表中。

另一种方法是将数据作为avro / parquet文件直接写入HDFS，让hive检测新数据并将其吸收。

我在开发环境中尝试了两种方法，并且我注意到的“唯一”缺点是写入hive的高延迟和/或我需要在代码中考虑的故障情况。

是否有建筑设计模式/最佳实践？

0 个答案:

没有答案