我想提高我对shannon熵和信息增益的理解。 我使用公式entropy = -p * log(p)来计算熵并根据概率对它们求平均值。
我的情况是疾病有多种结果,并且由少数属性决定。例如A,B,C
我可以计算疾病的总信息(不确定性/熵)。 我可以计算每个属性的信息增益。
我在考虑如下:
疾病熵=诊断总增益=属性A的信息增益+属性B +属性C
根据我选择的属性数量,我得到的疾病熵有时甚至更短。
计算诊断总信息增益的适当方法是什么。如何添加单个测试结果信息增益并获得总信息增益?理想情况下,这应该始终等于或小于疾病选择的信息(熵)。