我们正在开发Cloudera CDH,并尝试对存储在Apache Hadoop上的数据进行报告。我们每天向客户发送报告,因此需要每天从运营商店导入数据到hadoop。
Hadoop适用于仅附加模式。因此,我们无法执行Hive更新/删除查询。我们可以在维度表上执行插入覆盖,并在事实表中添加增量值。每天为delta行引入数千个似乎不是很令人印象深刻的解决方案。
在Hadoop中是否还有其他标准的更新方法来更新修改后的数据?
由于
答案 0 :(得分:0)
HDFS可能只是附加,但Hive支持从0.14开始支持更新。
见这里: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update
设计模式是获取所有先前和当前数据,并且每次都将其插入到新表中。
根据您的用例,请查看Apache Impala / Hbase / ...甚至是Drill。