我想计算存储在HBase中的文档的TF(术语频率)和IDF(逆文档频率)。
我还想将计算出的TF保存在HBase表中,同时将计算出的IDF保存在另一个HBase表中。
你能指导我吗?
我看过BayesTfIdfDriver
Mahout 0.4
,但我没有先发制人。
答案 0 :(得分:1)
解决方案的大纲非常简单:
TF-IDF上的维基百科页面是一个很好的参考,可以记住公式的详细信息:http://en.wikipedia.org/wiki/Tf * idf
答案 1 :(得分:0)
如果要计算TF,IDF,则需要创建中间表“TermMatrix”,用于存储带有文档ID的术语。 然后,您可以使用TermMatrix表计算TFIDF。 它接近实时但如果你想要实时TFIDF输出,那么我建议也创建“TF”,“IDF”表。
我写了一篇关于如何使用HBase计算TFIDF的博客: http://ahikmat.blogspot.kr/2014/07/building-term-matrix-on-hbase.html