关于使用朴素贝叶斯进行分类,改善结果

时间:2014-06-24 19:36:54

标签: machine-learning weka

我有一个包含10个类的数据集,每个类40个例子(总共400个例子) 我为每个例子提取了大约27个特征。我使用了一个朴素的贝叶斯分类器,使用十倍交叉验证,准确度达到了96.75%。

我从混淆矩阵中注意到,十个类中只有两个让几个例子混淆,而其余几个都被正确分类。我决定删除所有其他类,除了那两个,保持相同数量的功能,并重新运行朴素贝叶斯分类器;它始终能够正确地将示例分为两类。

我很困惑为什么会发生这种情况以及如何改进我的整体分类器。我真的不希望贝叶斯分类器能够更好地预测这两个类。我尝试了各种折叠组合,百分比分割,并且在没有所有其他8个类的情况下,它总是正确地对两个“问题”类进行分类。我是否接触过用于分类的增强/装袋/整体方法的想法?我的策略应该是使用一个分类器处理“问题”类并使用另一个分类处理其余类吗?我想我本来希望制作一个可以处理所有事情的分类器。

1 个答案:

答案 0 :(得分:0)

两个困难的类可能被其他类完全或部分遮挡。删除其他类可能允许您区分这两个类,但它仍然可能很难将这两个类与整个数据分开。

你可以想象下面的情况是正确的(蓝色点被红色遮挡)。去除红点使蓝点和黑点很容易分离。

enter image description here

看看你是否会从多个分类器中受益(正如你的建议)我会将两个困难的类合并为一个,并在其他类的存在下检查你的分类能力。如果您能够准确地做到这一点,那么您可以放心地继续使用多个分类器。