假设您有3类球:红色,绿色蓝色。
出现任何彩色球的几率为红色= 4/10,蓝色= 3/10,绿色= 3/10
Misclassifying red计算为4/10 *(3/10 + 3/10)或选择“True Class”*“Wrong Class”的几率。
为什么你会发现挑错球的几率而不是说加成?我知道Gini杂质方程对所有具有N个点和每个类的Ni数据点的C类概括了这个基本思想。我想我忘记了我的基本概率直觉。
答案 0 :(得分:4)
球Uncaught TypeError: t.amplitude.runQueuedFunctions is not a function
的概率为0.4。如果球实际上是红色的话,你只能犯一个关于红球的错误。
假设猜测精确地基于球的概率分布[注1],则蓝色的猜测具有概率0.3,同样地,绿色的猜测具有概率0.3。如果球真的是红色,那么这些是不正确的猜测,因为唯一可能的猜测是正确的。
如果两个事件是独立的,那么两个事件发生的概率(P 和 Q)是其概率的乘积。如果两个事件是互斥的,那么其中一个事件发生的概率(P 或 Q)就是它们概率的总和。
因此球被红色和被错误分类(蓝色或绿色)的概率为0.4 *(0.3 + 0.3)。
为此,我们必须将蓝球错误分类为红色或绿色的概率(0.3 *(0.4 + 0.3))和绿球错误分类为蓝色或红色的概率(0.3) *(0.3 + 0.4))总计0.66。这非常接近最大值2/3(当所有概率相等时)。
我在这里基于definition of Gini impurity from Wikipedia:
的答案如果根据子集中标签的分布对随机选择的元素进行随机标记,那么基尼杂质就是衡量该集合中随机选择的元素的频率的标准。