Spark Scala:计算2个向量的Pearson相关性

时间:2017-10-19 18:31:58

标签: scala apache-spark apache-spark-mllib

我有一个DataFrame,每行有2个向量列。 像

ratings1 | ratings2
Vector   | Vector

我试图了解如何使用Statistics.corr方法计算每行的这两列之间的相似性得分。 至于现在,我意识到corr不接受两个Vector作为参数。那么,我应该为每对Vector创建一个RDD吗?

0 个答案:

没有答案