标签: nlp mahout tf-idf term-document-matrix
我正在进行文本分类。有没有使用术语频率向量的TF-IDF更糟糕的情况?怎么解释呢? 谢谢
答案 0 :(得分:0)
两个指标......在两个方面进行区分 - 信息性(IDF)和关注性(TF) 包含数百次高IDF术语的文档正在进行中 导致糟糕,嘈杂的比赛...在前。垃圾文件
两个指标......在两个方面进行区分 - 信息性(IDF)和关注性(TF)
包含数百次高IDF术语的文档正在进行中 导致糟糕,嘈杂的比赛...在前。垃圾文件
好读 - Beyond bags of words,(Donald A. Metzler Jr. 2007)