在SD和AVG的帮助下计算相关系数时,Impala和Hive在结果上有显着差异

时间:2017-01-30 08:20:43

标签: sql hadoop hive impala

我有一个带有8个节点群集的Hadoop安装程序,CDH 5.9。

Hive版本: - Hive 1.1.0-cdh5.9.0 于2016年10月21日星期五00:54:46由詹妮丝编辑 来自校验和的来源9c5d0bee25fab27d28098c3080f8aedc

Impala版本: - Impala v2.7.0-cdh5.9.0(4b4cf19)于2016年4月21日星期五01:07:22(2016年2月12日)创建

问题: - 我在Hive和Impala上运行相同的查询(通过Hue,附带截图)

SELECT (AVG(cost_of_liquidity_provision*risk_of_liquidity_provision)- AVG(cost_of_liquidity_provision)*AVG(risk_of_liquidity_provision))/ (1.00000000*STDDEV_POP(cost_of_liquidity_provision)*STDDEV_POP(risk_of_liquidity_provision)) AS corr_coeff
FROM liquidity

该表采用镶木地板格式(未分区)

截图 Screenshot of Hive and Impala Notebook

我在两个不同的运行中获得了不同的输出 Hive : - 0.8465(通过外部应用程序验证的正确,例如R)
Impala : - 0.0636

类似的事情也发生在另一个问题上。 因此,我在Cloudera社区中提出IMPALA-4841并创建了this讨论主题。

任何帮助,为什么会发生这种情况将不胜感激。

0 个答案:

没有答案