应用错误收集

时间：2018-08-22 05:55:51

标签： machine-learning classification data-science decision-tree

我正在学习机器学习中的决策树算法

从教程中我可以理解的是，决策树在每个节点上计算信息增益，并以此为基础确定节点的最佳属性。

但是我无法获得的是它如何为每个节点定义最佳规则。

假设年龄是特定节点的最佳属性。在那种情况下，如果决策树选择的规则年龄> 50，那么我的问题是该规则的产生方式是什么？

还请解释以下内容：

决策树在每个级别将数据划分为同类子集。

答案 0 :(得分：2)

在每个节点上，拆分功能都会选择功能部件和该功能部件的值（用于拆分记录），这样可以最大程度地减少两个记录子集的成本。因此，它同时选择特征和值。成本函数取决于设置，分类或回归，但例如可以是熵，请注意，最小化熵等效于最大化信息增益（正如您在问题中所描述的）。

更直观地说，目标是创建最纯的记录子集，即每个子集包含尽可能多的样本（仅属于一个类）。另一种说法是，子集应该是齐整的或尽可能纯的。

有关更多详细信息，此处的任何有关机器学习的入门教科书都是一个不错的起点，请参见例如Introduction to Statistical Learning，由Tibshirani和Hastie等人撰写。

答案 1 :(得分：2)

基本上，有两个主要步骤。首先，有一个特征选择是下一个分割的最佳选择（例如使用基尼系数或熵）。其次，您要计算拆分前后的信息增益，并希望使增益最大化（可以使用贪婪方法）。

有很多有关决策树的文章，其中还讨论了优点和局限性Decision Trees. Decoded。