Question

一方面，我想使用Spark功能为一组文档计算TF-IDF，另一方面，我不适合使用TF-IDF的典型定义（Spark实现基于该定义）。我希望TF是所有文档中的术语频率，但是在典型的TF-IDF中，它是针对每对（单词，文档）的。 IDF定义与典型定义相同。

我使用Spark RDD实现了自定义的TF-IDF，但是我想知道是否有任何方法可以自定义Spark TF-IDF的源，以便可以使用诸如散列之类的功能。

实际上，我需要类似的东西：

public static class newHashingTF implements Something<String>

谢谢

Answer 1

实施不同的哈希策略非常简单，如HashingTF的简单性所示：

此talk and its slides可以提供帮助，还有许多其他在线版本。