标签: apache-hive
我有流媒体数据进入我的消费者应用程序,我最终想要在Hive / Impala中显示。一种方法是使用基于Hive的API将批量更新插入到Hive表中。
另一种方法是将数据作为avro / parquet文件直接写入HDFS,让hive检测新数据并将其吸收。
我在开发环境中尝试了两种方法,并且我注意到的“唯一”缺点是写入hive的高延迟和/或我需要在代码中考虑的故障情况。
是否有建筑设计模式/最佳实践?