在2个类中使用熵是否没有信息增益?

时间:2013-12-05 10:55:28

标签: machine-learning entropy

我有一个非常随机的人口,我正在尝试使用二元决策树进行拆分。

Population probability
TRUE 51%
FALSE 49%

所以熵是1(舍入到3)。因此,对于任何特征,熵也将是1(相同),因此没有信息增益。

我这样做了吗?在我学习它的过程中,我没有遇到任何说熵对于2个类没用的事情

1 个答案:

答案 0 :(得分:1)

熵/信息增益不是很大程度上取决于类的分布,而是取决于用于表征数据集中实例的特征中包含的信息。例如,如果您的TRUE类的功能始终为1,而FALSE类的功能始终为2,那么它将获得最高的信息增益,因为它允许您完美地分离这两个类

如果您获得的信息增益非常小,则表示功能中包含的信息对于分离您的类没有用。在这种情况下,您需要找到更多信息性功能。