标签: apache hive mapreduce hbase pearson-correlation
我在Apache Hbase中存储了一个很大的宽表,用于随机查找。该表表示整数矩阵,具有约300万行和50,000列。我已经将矩阵存储在Hbase中,既高又细(行键是行+列名)和“宽”格式(每行有50,000列)。
我想做的是在2秒内计算出单行与其他行之间的相关系数,并获得系数的排名列表。这意味着约300万种不同的计算。
Hbase不一定是为分析而构建的,但是鉴于我的性能要求,是否可以使用Hbase来运行此计算?还是应该尝试使用Map-Reduce选项(例如Apache Hive)?