Apache HBase-计算大型矩阵的相关系数

时间:2019-07-08 21:17:47

标签: apache hive mapreduce hbase pearson-correlation

我在Apache Hbase中存储了一个很大的宽表,用于随机查找。该表表示整数矩阵,具有约300万行和50,000列。我已经将矩阵存储在Hbase中,既高又细(行键是行+列名)和“宽”格式(每行有50,000列)。

我想做的是在2秒内计算出单行与其他行之间的相关系数,并获得系数的排名列表。这意味着约300万种不同的计算。

Hbase不一定是为分析而构建的,但是鉴于我的性能要求,是否可以使用Hbase来运行此计算?还是应该尝试使用Map-Reduce选项(例如Apache Hive)?

0 个答案:

没有答案