Tf-idf:这种方法是否正确?

时间:2009-08-22 11:36:06

标签: frequency term tf-idf

我想用tf-idf计算术语频率。我已经起草了一个方程式,您应该在左侧获得tf-idf值。这是对的吗?

DOCUMENT

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT)WORD
  • DOCUMENT的出现次数
  • number-of-words(DOCUMENT)DOCUMENT
  • 中的字数
  • documents(ALL):数据库中的文档数量
  • documents(WORD, ALL):数据库中包含WORD
  • 的文档数

如果你能帮助我,那就太好了。非常感谢你提前!

1 个答案:

答案 0 :(得分:1)

根据维基百科的文章,它是正确的,您可能想要更改为1 +文档(WORD,ALL)而不仅仅是维基百科文章建议的文档(WORD,ALL)。

TF-IDF on wikipedia