标签: algorithm machine-learning
我也可以在没有日志的情况下实现idf,在idf中使用log的意义是什么?
类似-:idf = log(出现该单词中的文档数量/文档数量)
但是为什么我们不能使用idf =(出现该单词中的文档数量/文档数量)
答案 0 :(得分:0)
这是因为IDF将与频率TF相乘。对于非常常见的单词,如果不使用log则IDF可能为1,因此即使是这些常见单词也最终比实际的稀有和有用单词更重。使用log,对于最常用的单词,IDF可以变为0,因此它们的有效tf-idf也变为0,并且可以忽略它们。
log