样本大小和分类器性能

时间:2015-11-10 16:53:38

标签: performance machine-learning

我很好奇样本大小如何影响多标签分类中的分类器性能。我进行了一项实验,并意识到对于像朴素贝叶斯这样的分类器,样本量似乎并没有真正影响其准确度得分。

我的问题是 - 为什么样本量只影响决策树或SVM等分类器?

1 个答案:

答案 0 :(得分:1)

实际上这个问题与多标签设置无关。任何学习任务都是如此 - 分类,回归,任何东西。

样本大小影响一致的分类器(在给定足够大的样本大小的情况下收敛到真实的基础分布的分类器)。换句话说 - 它影响能够过度拟合的分类器,具有高方差和低偏差的分类器。

朴素贝叶斯将始终以非常简单的方式对您的分布进行建模,它具有极强的偏差 - 关于数据形状的假设。类似的论点适用于线性 SVM,它也会获得一些分数,然后即使你添加更多分数也会越来越强。简单来说,他们分析的模型类别太小而不能代表实际关系。你可以从三种动物的教学方面考虑它:

  • 虫子
  • 人类

你教他们避免痛苦 - 他们都完美地做到了。然后,您添加新点(新数据),现在您教他们"获取",错误失败,无论您向他们展示如何获取多少次。他们很难做到这一点......现在你继续教导计算对数...当人类成功时(显示大量数据后),狗会失败。

现在,如果你使用类似SVM和RBF内核的东西,它已知是一致的,它将近似任何"表现良好的"分配。因此,如果你的问题是可以解决的,并且你给它足够的数据,它将几乎完美地解决它。