应用错误收集

时间：2012-06-08 17:55:10

标签： hadoop hbase mahout tf-idf

我想计算存储在HBase中的文档的TF（术语频率）和IDF（逆文档频率）。

我还想将计算出的TF保存在HBase表中，同时将计算出的IDF保存在另一个HBase表中。

你能指导我吗？

我看过BayesTfIdfDriver Mahout 0.4，但我没有先发制人。

答案 0 :(得分：1)

解决方案的大纲非常简单：

TF-IDF上的维基百科页面是一个很好的参考，可以记住公式的详细信息：http://en.wikipedia.org/wiki/Tf * idf

答案 1 :(得分：0)

如果要计算TF，IDF，则需要创建中间表“TermMatrix”，用于存储带有文档ID的术语。然后，您可以使用TermMatrix表计算TFIDF。它接近实时但如果你想要实时TFIDF输出，那么我建议也创建“TF”，“IDF”表。