目前,我们正在使用传统的数据仓库ETL工具IBM DataStage。我们正在寻求迁移这些工作。这些作业主要包括连接和转换以派生事实表。迁移此类工作的哪种技术更好?我们正在使用hue oozie和ETL的Impala查询,我们是否应该将spark sql用于ETL而不是Impala查询?
答案 0 :(得分:0)
如何实现类型2等。在Hive,Impala等中。对于我来说,整个大数据堆栈对于Prod env来说是无用的
U不仅可以附加数据,还可以批量更新以加载类型2之类的数据。
对于数据更正,您需要大量的临时查询,更新,删除插入。
从支持/开发团队运行大量临时查询以查找结果
差异等
所有上述3点使得这个堆栈无用。
用例是 大量的数据,其中输出是一些估计不正确,一个大胖表,删除和丢弃或非结构化数据