我有点想了解决策树计算的细节。 我获取了虹膜数据集,并使用以下公式计算了整个数据集的熵
Entropy = - \Sigma _{k=1}^m p(k) * log(p(k)
>>> ( (32/112) * log(32/112)) + ( (38/112) *log(38/112)) +( (42/112) * log(42/112))
-1.09
注意:32、38和42是虹膜数据集中三个类别的个体频率,它们的总数为112。
令我惊讶的是,最终得到的熵大于1。我什至没有使用 log2 ,它在熵的公式中存在(熵详细信息的屏幕截图如下)。 / p>
有人可以建议我在这里犯什么错误吗?
预先感谢