我在LingSpam数据集上运行SVM分类器,我在WEKA中遇到了以下混淆矩阵:
如果我们考虑合法 - >正面类和垃圾邮件 - >负面类,则True Positives = 2405,True Negatives = 470。
但我对假阴性和假阳性感到困惑。如果您阅读“混淆表”部分here,则似乎假阳性= 11且假阴性= 7。但是如果你阅读here(请使用Ctrl + F并搜索'这些数字的含义是什么意思?'),似乎假阳性= 7,假阴性= 11。
我很困惑:(。请帮帮我!此外,WEKA中的IR_Precision和IR_Recall是什么?是legal_precision和legit_recall还是spam_precision和spam_recall?
注意:将合法电子邮件视为POSITIVE类,将垃圾邮件视为NEGATIVE类。
答案 0 :(得分:1)
这取决于您定义为“积极”类的内容。 “合法”没有什么特别的,这意味着它是积极的阶级;你可以这样做。
在这里将“垃圾邮件”称为正面类是更常规的,因为它是您正在检测的异常属性。在这种解释中,有470个真正的正面,等等。在你的解释中有2405.本身都没有错,但同样,将“垃圾邮件”视为积极的阶级可能更为习惯。
关于精确度和召回的相同答案。这是积极的阶级,但取决于你用作积极的阶级。如果你输入这个混淆矩阵,它将寻找精确度和回忆“合法”作为积极的类。理想情况下,我会反过来说。
答案 1 :(得分:0)
首先,如果您仔细查看有关垃圾邮件分类问题的研究文章,几乎所有这些文章都将垃圾邮件定义为正面和火腿作为底片。在你的情况下,它是相反的。所以,它有机会混淆读者。
然而,Weka混淆矩阵完全没问题。以下是根据传统垃圾邮件分类任务的正面和负面定义:
True positives: original label spam, predicted label spam (very good)
False positives: original label ham, predicted label spam (very dangerous)
False negatives: original label spam, predicted label ham (less dangerous)
True negatives: original label hams, predicted labels ham (very good)
在您的情况下(如果您想与经典垃圾邮件分类任务中的内容进行比较),
True positives: 470
False positives: 7
False negatives: 11
True negatives: 2405
只需将混淆矩阵颠倒过来以这种方式阅读它们。我认为主要的困惑来自你对正面和负面的定义。
希望有所帮助。