一方面,我想使用Spark功能为一组文档计算TF-IDF,另一方面,我不适合使用TF-IDF的典型定义(Spark实现基于该定义) 。我希望TF是所有文档中的术语频率,但是在典型的TF-IDF中,它是针对每对(单词,文档)的。 IDF定义与典型定义相同。
我使用Spark RDD实现了自定义的TF-IDF,但是我想知道是否有任何方法可以自定义Spark TF-IDF的源,以便可以使用诸如散列之类的功能。
实际上,我需要类似的东西:
public static class newHashingTF implements Something<String>
谢谢
答案 0 :(得分:0)
实施不同的哈希策略非常简单,如HashingTF
的简单性所示:
此talk and its slides可以提供帮助,还有许多其他在线版本。