有没有使用术语频率向量的TF-IDF更糟糕的情况?

时间:2013-04-03 16:14:40

标签: nlp mahout tf-idf term-document-matrix

我正在进行文本分类。有没有使用术语频率向量的TF-IDF更糟糕的情况?怎么解释呢? 谢谢

1 个答案:

答案 0 :(得分:0)

  

两个指标......在两个方面进行区分 - 信息性(IDF)和关注性(TF)

     

包含数百次高IDF术语的文档正在进行中   导致糟糕,嘈杂的比赛...在前。垃圾文件

好读 - Beyond bags of words,(Donald A. Metzler Jr. 2007)