关于垃圾邮件检测中精度和召回的困惑

时间:2013-04-17 04:48:39

标签: machine-learning classification spam precision-recall

我正在做一个根据tutorial检测垃圾邮件帐户的项目。两个标签 - “垃圾邮件”和“非垃圾邮件”用于训练和测试。分类已经完成,我正在进行评估。

结果是:

*Spam* precision: 0.962917933131
*Spam* recall: 0.6336

*Not spam* precision: 0.72697466468
*Not spam* recall: 0.9756

我已经阅读了wiki精度和召回,仍然感到困惑,不知道如何将其用于测量。

我的目的是减少普通帐户的数量,这些帐户被标记为“垃圾邮件”。一些“垃圾邮件”帐户可以逃脱并不重要。所以我想知道上面哪些结果我应该集中精力改进?感谢。

1 个答案:

答案 0 :(得分:7)

精确度是归类为阳性的结果的一部分,确实是正的。

召回是检测到的所有阳性结果的一部分。

  

我的目的是减少普通帐户的数量   标记为“垃圾邮件”。

这意味着您希望最大限度地提高 Spam 的精确度并召回 Not spam 。您链接的Wiki页面解释了您需要知道的所有内容 - 实际上您的目的是最大限度地减少“误报”的数量(包括在这两个特征中)。

建议的关键短语:Confusion Matrix