分类器对数据子集的性能

时间:2010-09-08 00:00:31

标签: machine-learning classification weka

我正在使用Weka对一组带标签的网页进行分类,并使用AUC测量分类器性能。我有一个单独的六级因子,不用于分类,我想知道分类器在每个级别的因子上的表现如何。

我应该使用哪些技巧或措施来测试数据子集的分类器性能?

2 个答案:

答案 0 :(得分:2)

我不确定这是否正是您的要求,但人们经常使用cross-validation将一组数据分成多个培训/测试子集,以更好地评估学习成绩。

基本思路(例如10倍交叉验证)是:

  1. 将您的数据随机分成训练和测试集
  2. 在训练集上训练分类器
  3. 评估其在测试集上的表现
  4. 使用不同的随机训练/测试分组重复步骤1-3九次
  5. 分类器的整体性能是其在所有10个测试集上的平均性能。

    我环顾四周,发现some examples of how to perform cross-validation programmaticallyvia the Weka UI

答案 1 :(得分:0)

Nate Kohl recommended的步骤都是正确的。另一个非常重要的问题是测量性能的功能。根据我的经验,最大化AUC有时会导致分类器的实质性偏差。我更喜欢将Matthews Correlation Coeficient (MCC)用于二进制分类器,或者Cohen's kappa用于具有两个以上可能值的分类分类器