我有一个包含10个类的数据集,每个类40个例子(总共400个例子) 我为每个例子提取了大约27个特征。我使用了一个朴素的贝叶斯分类器,使用十倍交叉验证,准确度达到了96.75%。
我从混淆矩阵中注意到,十个类中只有两个让几个例子混淆,而其余几个都被正确分类。我决定删除所有其他类,除了那两个,保持相同数量的功能,并重新运行朴素贝叶斯分类器;它始终能够正确地将示例分为两类。
我很困惑为什么会发生这种情况以及如何改进我的整体分类器。我真的不希望贝叶斯分类器能够更好地预测这两个类。我尝试了各种折叠组合,百分比分割,并且在没有所有其他8个类的情况下,它总是正确地对两个“问题”类进行分类。我是否接触过用于分类的增强/装袋/整体方法的想法?我的策略应该是使用一个分类器处理“问题”类并使用另一个分类处理其余类吗?我想我本来希望制作一个可以处理所有事情的分类器。
答案 0 :(得分:0)
两个困难的类可能被其他类完全或部分遮挡。删除其他类可能允许您区分这两个类,但它仍然可能很难将这两个类与整个数据分开。
你可以想象下面的情况是正确的(蓝色点被红色遮挡)。去除红点使蓝点和黑点很容易分离。
看看你是否会从多个分类器中受益(正如你的建议)我会将两个困难的类合并为一个,并在其他类的存在下检查你的分类能力。如果您能够准确地做到这一点,那么您可以放心地继续使用多个分类器。