parameters - Rapidminer：解释决策树参数

我喜欢使用RAPIDMINER OPERATOR REFERENCE。这是一个PDF文件：http://rapidminer.com/documentation/

本文档中的信息优于应用程序本身的信息。例如： ...当前的实例或示例数量少于一定数量子树。这可以通过使用split参数的最小尺寸来调整。

假设您的标签是“蓝色”，“红色”和“绿色”。您的决策树有一个节点，其中包含2个“绿色”和1个“蓝色”示例。如果 split 的最小大小为4，则决策树将不会创建新分支，因为节点中只有三个示例。它只会接受这样一个事实：尽管答案并不完美，但它会将节点声明为leaf，将示例分类为全“绿色”。

最小叶片大小类似。每个分支导致单个示例的决策树即使可以提供最准确的分类，也不是非常有用。因此，您可以设置树中叶子分类的最小示例数。良好的价值取决于您的数据集和您的需求。运行决策树，如果每次运行中只有几个示例的叶子太多，请增加此参数的值。

标准和最小增益稍微复杂一些。 Criterion是RapdMinder用于判断决策树及其节点有多好的算法。有几种策略，我不太了解它们的工作原理。该标准是RapidMiner用于决定是否应在节点下创建子树或将节点声明为叶子的事项之一。它还应该控制子树从子树的根节点延伸多少个分支。

决策树有更多选项，每种决策树可以有不同的参数。我通过阅读参数的描述，假设如果我更改参数会发生什么，然后创建一个新的决策树以查看我的假设是否正确来了解它们。试验并玩得开心！