决策树基尼杂质基础数学Q.

时间:2016-01-06 06:24:58

标签: math machine-learning probability decision-tree

假设您有3类球:红色,绿色蓝色。

出现任何彩色球的几率为红色= 4/10,蓝色= 3/10,绿色= 3/10

Misclassifying red计算为4/10 *(3/10 + 3/10)或选择“True Class”*“Wrong Class”的几率。

为什么你会发现挑错球的几率而不是说加成?我知道Gini杂质方程对所有具有N个点和每个类的Ni数据点的C类概括了这个基本思想。我想我忘记了我的基本概率直觉。

1 个答案:

答案 0 :(得分:4)

Uncaught TypeError: t.amplitude.runQueuedFunctions is not a function的概率为0.4。如果球实际上是红色的话,你只能犯一个关于红球的错误。

假设猜测精确地基于球的概率分布[注1],则蓝色的猜测具有概率0.3,同样地,绿色的猜测具有概率0.3。如果球真的是红色,那么这些是不正确的猜测,因为唯一可能的猜测是正确的。

如果两个事件是独立的,那么两个事件发生的概率(P Q)是其概率的乘积。如果两个事件是互斥的,那么其中一个事件发生的概率(P Q)就是它们概率的总和。

因此球被红色被错误分类(蓝色绿色)的概率为0.4 *(0.3 + 0.3)。

为此,我们必须将蓝球错误分类为红色或绿色的概率(0.3 *(0.4 + 0.3))和绿球错误分类为蓝色或红色的概率(0.3) *(0.3 + 0.4))总计0.66。这非常接近最大值2/3(当所有概率相等时)。

注意:

  1. 我在这里基于definition of Gini impurity from Wikipedia

    的答案
      

    如果根据子集中标签的分布对随机选择的元素进行随机标记,那么基尼杂质就是衡量该集合中随机选择的元素的频率的标准。