scklearn的tfidf_transform为什么要计算其方式?

时间:2019-09-05 14:32:15

标签: python math scikit-learn nlp tf-idf

我目前正在研究NLP问题,需要计算TF-IDF分数。但是,Sklearn的TfidfTransformer似乎使用的操作顺序与每个来源建议的顺序不同。

通常,tf_idf得分是通过计算术语频率(每个单词的计数/句子的长度)并将其乘以反文档频率(文档数/单词出现的文档数)来计算的。

但是sklearn首先将原始计数与idf相乘,然后再归一化。

任何对他们为何如此进行的见解将不胜感激。

0 个答案:

没有答案