如何以分布式方式计算大(> 10TB)数据集的皮尔森互相关矩阵?任何有效的分布式算法建议将不胜感激。
更新: 我读了apache spark mlib相关的实现
Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala
但对我来说,看起来所有的计算都发生在一个节点上,而且它并没有真正意义上的分布。
请点亮这里。我也尝试在3节点火花簇上执行它,下面是屏幕截图:
正如您从第二张图片中看到的那样,数据在一个节点上拉,然后正在进行计算。我在这里吗?