更新和插入

时间:2018-08-25 08:08:41

标签: apache-spark hadoop hive updates apache-nifi

我们正在将每小时JSON数据接收到HDFS中。数据大小约为每小时5-6 GB。

  • 在最终表中找到匹配的记录后,请更新(或)删除

  • 如果记录在最终数据集中不匹配,则插入记录。

我们已经针对USE案例尝试了Hive合并选项。这需要一个多小时来处理Hive中的合并操作。还有没有其他替代方法可以解决用例。因此,基本上每天我们都在蜂巢中添加150GB数据,隔天我们必须扫描150Gb数据以查找是否需要进行更新/插入

对大型数据集进行Upserts(Hadoop中的更新和插入)的最佳方法是什么。 Hive或HBase或Nifi。什么是流量。

1 个答案:

答案 0 :(得分:0)

我们正在将uber的Hoodie库用于类似的用例。它使用带有分区和Bloom Bloom索引的Spark库来更快地合并。它支持Hive和Presto。

DeltaStreamer Tool可用于快速设置和初始测试