决策树熵计算目标

时间:2016-02-02 15:24:50

标签: machine-learning artificial-intelligence decision-tree entropy data-science

我找到了两种类型的几个例子。

单一功能

给定只有两个项目类的数据。仅example只有蓝色和黄色的球。即在这种情况下我们只有一个功能就是颜色。这是显示适用于熵的“分而治之”规则的明显示例。但这对于任何预测或分类问题都是毫无意义的,因为如果我们有一个只有一个特征且价值已知的对象,我们就不需要树来决定“这个球是黄色的”。

多项功能

给定具有多个特征和预测特征的数据(以训练数据而闻名)。我们可以基于每个特征的最小平均熵来计算谓词。更贴近生活,不是吗?在我没有尝试实现算法之前,我很清楚。

现在我脑子里发生了碰撞。

如果我们相对于已知特征(每个节点一个)计算熵,只有当未知特征严格依赖于每个已知特征时,我们才会在使用树进行分类时获得有意义的结果。否则,单个未绑定的已知功能可能会破坏以错误方式驱动决策的所有预测。但是如果我们相对于我们想要在分类中预测的特征的值来计算熵,则返回到第一个无意义的例子。通过这种方式,用于节点的已知特征没有区别......

关于树木建造过程的问题。

我是否应仅针对已知特征计算熵,并且只相信所有已知特征都与未知特征绑定?或者我可能应该计算未知特征(训练数据已知)的熵以确定哪个特征更能影响结果?

1 个答案:

答案 0 :(得分:0)

几年前我遇到了同样的问题(可能是类似的编程任务):我是否根据完整的功能集,分支的相关功能或某个级别的相关功能来计算熵?

这样结果:在决策树中,它归结为比较不同分支之间的熵以确定最佳分支。比较需要相等的基本集,即每当您想要比较两个熵值时,它们必须基于相同的特征集。

对于您的问题,您可以使用与要比较的分支集相关的功能,只要您知道使用此解决方案就无法比较不同分支集之间的熵。 否则请使用整个功能集。

(免责声明:上述解决方案是一个问题的思维协议,几年前就会导致大约一个小时的思考。希望我把一切都弄好。)

PS:小心汽车数据集! ;)