Apache配置单元中的慢相关计算

时间:2019-07-09 19:37:46

标签: apache-spark hive mapreduce hbase

我正在考虑将Apache Hive用作正在构建的应用程序的后端。此应用程序的要求是:

  1. 存储由50,000列宽和300万行组成的整数矩阵。
  2. 对于选定的行,获取选定列与矩阵中每隔一列之间的Pearson相关系数(Hive中的 corr 函数)(300万次计算)。
  3. 返回相关系数的排序列表。
  4. 操作必须在5秒内返回排序列表。

我目前正在AWS EMR的4个节点上运行Hive。 Hive实例正在从Apache Hbase表读取。但是,即使仅计算两列的相关性也非常慢(超过20秒):

SELECT corr(col1, col2) FROM table

这是Hive的错误用例吗?如果是这样,是否有更好的选项可以与Hbase一起使用(Phoenix,Spark等?)

0 个答案:

没有答案