应用错误收集

Apache配置单元中的慢相关计算

时间：2019-07-09 19:37:46

标签： apache-spark hive mapreduce hbase

我正在考虑将Apache Hive用作正在构建的应用程序的后端。此应用程序的要求是：

存储由50,000列宽和300万行组成的整数矩阵。
对于选定的行，获取选定列与矩阵中每隔一列之间的Pearson相关系数（Hive中的 corr 函数）（300万次计算）。
返回相关系数的排序列表。
操作必须在5秒内返回排序列表。

我目前正在AWS EMR的4个节点上运行Hive。 Hive实例正在从Apache Hbase表读取。但是，即使仅计算两列的相关性也非常慢（超过20秒）：

SELECT corr(col1, col2) FROM table

这是Hive的错误用例吗？如果是这样，是否有更好的选项可以与Hbase一起使用（Phoenix，Spark等？）

0 个答案:

没有答案