应用错误收集

Spark Scala：计算2个向量的Pearson相关性

时间：2017-10-19 18:31:58

标签： scala apache-spark apache-spark-mllib

我有一个DataFrame，每行有2个向量列。像

ratings1 | ratings2
Vector   | Vector

我试图了解如何使用Statistics.corr方法计算每行的这两列之间的相似性得分。至于现在，我意识到corr不接受两个Vector作为参数。那么，我应该为每对Vector创建一个RDD吗？

0 个答案:

没有答案