Spark MLlib IDF是否会改变数据?

时间:2017-08-01 00:30:51

标签: apache-spark apache-spark-mllib tf-idf

在下面的代码中,spark计算IDF和TF-IDF向量时是否需要重排数据?

val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)

1 个答案:

答案 0 :(得分:0)

它没有洗牌:

  • 两种transform方法均使用RDD.map
  • 实施
  • IDF.fit是使用RDD.treeAggregate实现的。

fit较低时,miDocFreq方法仍然非常昂贵。