信息增益IG(Y|X) = H(Y) - H(Y|X) >= 0
,但信息增益比能否小于0?
答案 0 :(得分:0)
不,不能。
根据wikipedia,信息增益比由IGR = IG/IV
定义,其中IGR
是信息增益比,IG
是信息增益,而IV
是信息价值(又称内在价值)。
您已经同意IG >= 0
,所以我们只需要显示IV >= 0
。
在决策树的上下文中,令Ex
为训练示例集,令a
为某些特征,令A
为a
在Ex
中随机选择的示例。
然后我们可以说IV = H(A)
,并且熵的属性之一是non-negativity,因此我们得到:
IV = H(A) >= 0
。
或者,我们可以直接从其definition推论出IV >= 0
(这与某人可能表明熵是非负的相似):
在左边的分数中只有设定的大小,因此它不是负数。
正确的分数等于集合的大小除以某些超集的大小。因此,分数必须为<= 1
。
因此,该分数的对数必须为<= 0
。
因此,总和为<= 0
,而负数为IV >= 0
。
注意:可能是IGR = 0/0
,所以未定义。这种情况的一个例子是,在所有训练示例中,a
的值都相同。