Apache Spark - 计算相关性

时间:2016-09-16 15:57:49

标签: apache-spark correlation apache-spark-mllib

我正在尝试计算用户评分之间的相关性。我想出了一个简单的程序,现在试图理解皮尔逊相关的结果。

val user1 = Vectors.dense(10, 2, 3, 3)
val user2 = Vectors.dense(10, 3, 2, 2)
val user3 = Vectors.dense(1, 8, 9, 1)
val user4 = Vectors.dense(3, 9, 8, 2)
val user5 = Vectors.dense(1, 1, 1, 1)
val user6 = Vectors.dense(2, 2, 2, 2)


val users = spark.sparkContext.parallelize(Array(user1, user2, user3, user4, user5, user6))

val corr = Statistics.corr(users)

这是参考的矩阵结果:

1.0                   -0.30336465877348895  -0.33033040622002124  0.7679896586280794    
-0.30336465877348895  1.0                   0.9660056657223798    -0.21945076948288175  
-0.33033040622002124  0.9660056657223798    1.0                   -0.21945076948288175  
0.7679896586280794    -0.21945076948288175  -0.21945076948288175  1.0     

有人可以帮我解释这个矩阵吗?我很惊讶它包含4列和4行(我有6个用户作为输入)?

1 个答案:

答案 0 :(得分:1)

这里没有太多要解释的内容。正如您可以在the API docs corr(X: RDD[Vector])中看到的那样:

  

Pearson相关矩阵比较X中的

所以四列意味着4 * 4矩阵。