分类提供奇怪的结果

时间:2015-07-15 08:59:18

标签: machine-learning weka random-forest

我有分类问题。我有一个19人实验的生理数据(脉搏,皮肤抵抗等,4个特征)的数据集。在实验中,他们必须做一系列影响他们的事情。这就是为什么数据在实验的每个阶段分为10个类别的原因。现在我有两个数据集:一个包含放在一起的所有数据(从第一个人开始到最后一个结束),另一个包含一个包含17个人的训练集和包含2个人的测试集。现在我使用Wekas Random Forest对数据进行分类,令人惊讶的是,使用第一个数据集进行10次交叉验证时,我得到了几乎完美的结果(这对我来说非常奇怪,我的意思是10个类的问题,只有4个功能?),但是当我使用单独的训练和测试集时,我的结果非常糟糕。我也尝试使用其他2人将数据分成测试集,结果相同。问题是:我错过了什么?

1 个答案:

答案 0 :(得分:0)

这是一个高方差问题,这意味着您的分类器能够完美地适应训练数据,但无法很好地概括。阅读偏差\方差权衡并考虑改进泛化的方法(可能转向另一个分类器,它可以更好地推广或减少随机森林中树木的数量等)。

您也可能没有太多可用于培训的数据。因此,你的分类器能够完美地适应训练数据(因为有少量的例子可以很容易地相互区分),但绝对不能仅仅因为你没有提供足够的数据来概括对问题空间进行任何合理的抽样。

只有19个人支持第二个假设 - 19个记录甚至不足以支持ML算法。