tf-idf:我应该对文件长度进行规范化

时间:2017-06-17 02:15:45

标签: python normalization word tf-idf

使用TF-IDF比较文档A,B时 我知道文件的长度并不重要。 但与A-B相比,A-C 在这种情况下,我认为文件B,C的长度应该是相同的长度。

例如,

记录:100字 文件A:20个字 文件B:30字

Log - A的TF-IDF得分:0.xx 记录 - B&C的TF-IDF得分:0.xx

我应该对文件A,B进行标准化吗? (如果比较目标不同,则似乎是一个问题或错误的结果)

1 个答案:

答案 0 :(得分:4)

通常,您希望做任何事情,为您提供最佳的交叉验证结果。

如果你要做的就是比较它们是否采用余弦相似性,那么你必须将矢量标准化作为计算的一部分,但它不会因为不同的文档长度而影响分数。许多通用文档检索系统认为较短的文档更有价值,但通常在计算相似度后将其作为分数乘数处理。

通常使用ln(TF)代替原始TF分数作为归一化特征,因为看到术语1和2次之间的差异比看到术语100和200倍之间的差异更重要;它还过度使用术语来控制向量,并且通常更加健壮。