我对熵的疑虑很少。熵公式为 -summation(p(i | j)log2 p(i | j) 这是目标属性的公式,只有2个值。如果目标有超过2个类值(比如高,中,低)怎么办?公式将如何受到影响? 那将会, -summation(p(i | j)log3 p(i | j))?
另一个问题: 如何在没有任何偏差的情况下计算随机基线分类器的准确性? 说我的问题说:
1)class1=50% and class2=50%
2)class1=40% and class2=60%
3)class1=10%,class2=20% and class3=70%
你能帮我解决这两个问题吗?
答案 0 :(得分:1)
不,对数的通常选择仍然是基数2,"位"。
但事实上,日志的基础只是一个常数,在大多数情况下会取消,或者是无关紧要的全局缩放常量。