我有更多的概念性问题。我正在使用Hive来提取数据,然后我想将所有检索到的值插入到IBM BigSQL(基本上是DB2)中,以便聚合数据更容易/更快。所以我想在Hive中创建一个视图,我将每晚使用CTAS,这样我就可以将表格迁移到db2并进行其余的聚合。 有更好的做法吗? 我想做所有事情,包括Hive中的聚合,但它非常慢。
感谢您的建议!
答案 0 :(得分:1)
考虑到您使用的是Cloudera,您是否有理由不在Impala中执行聚合?将json数据转换为镶木地板(如果没有很多嵌套结构,我建议这样做)不应该真的很贵。根据您正在进行的聚合类型的另一种替代方法是使用Spark来转换数据(也将取决于您的大量群集大小)。我想给你更具体的提示,但不知道你正在做什么聚合是复杂的