我正在学习机器学习中的决策树算法
从教程中我可以理解的是,决策树在每个节点上计算信息增益,并以此为基础确定节点的最佳属性。
但是我无法获得的是它如何为每个节点定义最佳规则。
假设年龄是特定节点的最佳属性。在那种情况下,如果决策树选择的规则年龄> 50,那么我的问题是该规则的产生方式是什么?
还请解释以下内容:
决策树在每个级别将数据划分为同类子集。
答案 0 :(得分:2)
在每个节点上,拆分功能都会选择功能部件和该功能部件的值(用于拆分记录),这样可以最大程度地减少两个记录子集的成本。因此,它同时选择特征和值。成本函数取决于设置,分类或回归,但例如可以是熵,请注意,最小化熵等效于最大化信息增益(正如您在问题中所描述的)。
更直观地说,目标是创建最纯的记录子集,即每个子集包含尽可能多的样本(仅属于一个类)。另一种说法是,子集应该是齐整的或尽可能纯的。
有关更多详细信息,此处的任何有关机器学习的入门教科书都是一个不错的起点,请参见例如Introduction to Statistical Learning,由Tibshirani和Hastie等人撰写。
答案 1 :(得分:2)
基本上,有两个主要步骤。首先,有一个特征选择是下一个分割的最佳选择(例如使用基尼系数或熵)。其次,您要计算拆分前后的信息增益,并希望使增益最大化(可以使用贪婪方法)。
有很多有关决策树的文章,其中还讨论了优点和局限性Decision Trees. Decoded。