在SparkALS中,“功能数量”还表示“因子数量”?

时间:2017-03-16 14:43:55

标签: apache-spark apache-spark-mllib apache-spark-ml

我正在研究Spark的早期版本(alpha-0.1),以了解它是如何开始的以及它是如何发展的。我也在努力教育自己如何交替使用最小二乘法。

我正在查看SparkALS示例并查看以下变量:

  var M = 0 // Number of movies
  var U = 0 // Number of users
  var F = 0 // Number of features

来源:https://github.com/apache/spark/blob/alpha-0.1/src/examples/SparkALS.scala#L11-L13

F变量(特征数)代表什么?

我可以将此解释为潜在因素数吗?这在Spark Collaborative Filtering documentation页面中也称为rank

  

rank是模型中潜在因素的数量。

1 个答案:

答案 0 :(得分:0)

啊,Spark API docs引用rank作为功能的数量:

  

排名 - 要使用的功能数量

所以我认为术语功能数潜在因素数 可以互换。

另见:https://issues.apache.org/jira/browse/SPARK-20011