应用错误收集

在Hive之外聚合是一个更好的选择吗？

时间：2017-08-16 23:43:29

标签： hadoop hive db2 hiveql

我有更多的概念性问题。我正在使用Hive来提取数据，然后我想将所有检索到的值插入到IBM BigSQL（基本上是DB2）中，以便聚合数据更容易/更快。所以我想在Hive中创建一个视图，我将每晚使用CTAS，这样我就可以将表格迁移到db2并进行其余的聚合。有更好的做法吗？我想做所有事情，包括Hive中的聚合，但它非常慢。

感谢您的建议！

1 个答案:

答案 0 :(得分：1)

考虑到您使用的是Cloudera，您是否有理由不在Impala中执行聚合？将json数据转换为镶木地板（如果没有很多嵌套结构，我建议这样做）不应该真的很贵。根据您正在进行的聚合类型的另一种替代方法是使用Spark来转换数据（也将取决于您的大量群集大小）。我想给你更具体的提示，但不知道你正在做什么聚合是复杂的

哪个持久性内存是更好的选择？
mysqli_ *比mysql_ *更好吗？
乘以sql中的聚合
HIVE UDF可以在shell之外进行通信
在c ++中，引用总是更好的选择
扩展方法，这是一个更好的选择
什么是蜂巢外面的意思？
辛格尔顿：什么是更好的选择？
在Hive之外聚合是一个更好的选择吗？
骆驼选择后处理器在choice（）中的聚合器完成聚合之前运行

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？