标签: python math scikit-learn nlp tf-idf
我目前正在研究NLP问题,需要计算TF-IDF分数。但是,Sklearn的TfidfTransformer似乎使用的操作顺序与每个来源建议的顺序不同。
通常,tf_idf得分是通过计算术语频率(每个单词的计数/句子的长度)并将其乘以反文档频率(文档数/单词出现的文档数)来计算的。
但是sklearn首先将原始计数与idf相乘,然后再归一化。
任何对他们为何如此进行的见解将不胜感激。