为什么在机器学习中存在逆文档频率的对数项?我们也可以不使用日志,这里真正使用日志是什么?

时间:2019-03-09 11:32:04

标签: algorithm machine-learning

我也可以在没有日志的情况下实现idf,在idf中使用log的意义是什么?

类似-:idf = log(出现该单词中的文档数量/文档数量)

但是为什么我们不能使用idf =(出现该单词中的文档数量/文档数量)

1 个答案:

答案 0 :(得分:0)

这是因为IDF将与频率TF相乘。对于非常常见的单词,如果不使用log则IDF可能为1,因此即使是这些常见单词也最终比实际的稀有和有用单词更重。使用log,对于最常用的单词,IDF可以变为0,因此它们的有效tf-idf也变为0,并且可以忽略它们。