NaiveBayes,J48和RandomTree用外行的话来说

时间:2015-05-10 12:57:33

标签: machine-learning weka

我很难理解两个分类器是如何工作的。到目前为止,我已经推断出NaiveBayes通过“解耦”多个证据来预测结果,并将每一个证据视为独立的。但是,与J48或RandomTree等其他分类算法相比,每个分类算法与另一个分类算法有何不同?

例如,下表显示了两个数据集中正确分类的实例的百分比。我可以得出结论,所选择的这两个分类器最适合劳动数据集,因为它们都可以比糖尿病数据集正确分类更多实例。

http://i.stack.imgur.com/TtB3Q.png

但是,如下所示,NaiveBayes在Glass数据集上表现非常糟糕。这背后的原因是什么?是由于数据集中存在异常的可能性(即我们可能从标准差或均值确定)?

http://i.stack.imgur.com/CHfVb.png

关于上述结果,是否有人能够提供外行人对两种分类器的描述?

(抱歉,由于声誉不佳,我无法发布图片)。

1 个答案:

答案 0 :(得分:0)

glass 数据集中,所有值(" RI"除外)都是百分比,每行总计约100%。因此,根据定义,它们不是独立的。

例如,如果玻璃含有50%硅(Si)和30%铝,则这两种组分单独占理论值100%的80%。因此,对于所有其他元素(Mg,Fe,Na,K等),剩下的100%中只剩下20%。因此,Si值将倾向于与任何次要元素自动负相关,并且次要元素将倾向于彼此相关。

在环境统计中,这被称为"关闭数据"问题。阅读本文的介绍了解更多信息:Univariate statistical analysis of environmental (compositional) data: Problems and possibilities(我只是用Google搜索了这个)

其中一种方法是测量在浓度<1时出现的痕量元素。 1%。这些确实可以被视为独立的。