自定义TF-IDF的Apache Spark实现

时间:2018-11-03 18:02:43

标签: apache-spark tf-idf

一方面,我想使用Spark功能为一组文档计算TF-IDF,另一方面,我不适合使用TF-IDF的典型定义(Spark实现基于该定义) 。我希望TF是所有文档中的术语频率,但是在典型的TF-IDF中,它是针对每对(单词,文档)的。 IDF定义与典型定义相同。

我使用Spark RDD实现了自定义的TF-IDF,但是我想知道是否有任何方法可以自定义Spark TF-IDF的源,以便可以使用诸如散列之类的功能。

实际上,我需要类似的东西:

public static class newHashingTF implements Something<String>

谢谢

1 个答案:

答案 0 :(得分:0)

实施不同的哈希策略非常简单,如HashingTF的简单性所示:

talk and its slides可以提供帮助,还有许多其他在线版本。