我想用tf-idf计算术语频率。我已经起草了一个方程式,您应该在左侧获得tf-idf值。这是对的吗?
如果你能帮助我,那就太好了。非常感谢你提前!DOCUMENT
的tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
:WORD
DOCUMENT
的出现次数
number-of-words(DOCUMENT)
:DOCUMENT
documents(ALL)
:数据库中的文档数量documents(WORD, ALL)
:数据库中包含WORD
答案 0 :(得分:1)
根据维基百科的文章,它是正确的,您可能想要更改为1 +文档(WORD,ALL)而不仅仅是维基百科文章建议的文档(WORD,ALL)。