问题:您首先要在哪个功能上拆分数据?
好吧,我试图找到具有最高信息增益的功能,因此我将能够找到它。 (因为它最大程度地降低了熵)
首先,我正在计算每个特征(x1,x2,x3)以及作为输出的(y)的概率。
p(x1) = 2/3, p(x2) = 1/3, p(x3) = 1/2 , p(y) = 1/2
然后,我正在计算每个熵:
E(x1) = 1.92 , E(x2) = 0.72, E(x3) = 1 (equally divided true/false, thus Entropy will be 1)
问题:而且我不确定如何从这里继续。
我考虑过通过以下公式计算IG(信息增益):
IG(x1)= p(y)-p(特征x1中的#1)E(3,1)+ p(特征x1中的#0)E(0,0)=
IG(x2)= p(y)-p(特征x2中的#1)E(1,1)+ p(特征x2中的#0)E(2,2)=
IG(x3)= p(y)-p(特征x3中的#1)E(1,2)+ p(特征x3中的#0)E(2,1)=