标签: scala apache-spark apache-spark-mllib
我有一个DataFrame,每行有2个向量列。 像
ratings1 | ratings2 Vector | Vector
我试图了解如何使用Statistics.corr方法计算每行的这两列之间的相似性得分。 至于现在,我意识到corr不接受两个Vector作为参数。那么,我应该为每对Vector创建一个RDD吗?