我将20NG数据集与k-nn分类,每个类别有200个实例,80-20次列车测试分割,我发现以下结果
这里的精度很低但是当精度很低时精度如何?是不是精密公式TP /(TP + FP)?如果是,则高精度分类器需要产生高真阳性,这将导致高精度,但K-nn如何产生高精度且真阳性率太低?
答案 0 :(得分:2)
召回相当于真阳性率。文本分类任务(尤其是信息检索,但也包括文本分类)显示了召回和精确度之间的权衡。当精度非常高时,召回率往往较低,而相反。这是因为您可以调整分类器以将更多或更少的实例分类为正数。您归类为正数的实例越少,精度越高,召回率越低。
为了确保有效性测量与准确性相关,您应该关注F测量,平均回忆和精确度(F-measure = 2 * r * p /(r + p))。
非懒惰分类器遵循训练过程,在此过程中,他们尝试优化准确性或错误。懒惰的K-NN没有训练过程,因此,它不会尝试优化任何有效性措施。您可以使用不同的K值,直观地说,K越大,召回越高,精度越低,反之亦然。