如何计算以下数据集的信息增益?

时间:2015-11-24 19:51:01

标签: machine-learning classification decision-tree information-gain

了解信息增益计算 - 人口中癌症的概率为1%。癌症检测正确识别癌症患者的概率为50%,非癌症患者概率为99.5%。现在我必须计算使用这种癌症测试获得的信息增益? 这是我在学习熵和信息增益时试图解决的一个练习题。 编辑 - 我上面计算的尝试是 -

如果我们将总人口视为100 -
 Cancer patient =1 Non-cancer patient = 99 Entropy H = -1/100 log(1/100)- 99/100 log(99/100)

现在对癌症患者的测试给了我--50%的癌症患者和50%的非癌症患者。因此,作为癌症患者的分类熵 -

H1 = -1/2(log1/2)-1/2log(1/2)

非癌症患者,其给予99.5%的非癌症患者和.5%的癌症。应该获得良好的信息增益。非癌症患者的分类熵是 -

H2 = -(99.5*99/100)log(99.5*99/100) - (5/100)*99 log(5/100*99) 我想知道测试后得到熵的正确方法。如果这是正确的,则可以计算信息增益 -

Information gain = H - (H1+H2)

0 个答案:

没有答案