我对快速通道和数据挖掘一般都很陌生,但我试图粗略地搜索所有参数在fastminers决策树参数中的含义并且缺乏。我知道叶子是什么,节点是什么,我正准备好了解一些参数,但是任何共享的知识都会受到赞赏。 I.E.他们真的做了什么? 标准 分割的最小尺寸 最小的叶子大小 最小的收益 最大深度 置信
同样没有使用优化,追踪错误是获得最佳预测的最佳方法吗? 谢谢, 小号
答案 0 :(得分:1)
我喜欢使用RAPIDMINER OPERATOR REFERENCE。这是一个PDF文件:http://rapidminer.com/documentation/
本文档中的信息优于应用程序本身的信息。例如: ...当前的实例或示例数量少于一定数量 子树。这可以通过使用split参数的最小尺寸来调整。
假设您的标签是“蓝色”,“红色”和“绿色”。您的决策树有一个节点,其中包含2个“绿色”和1个“蓝色”示例。如果 split 的最小大小为4,则决策树将不会创建新分支,因为节点中只有三个示例。它只会接受这样一个事实:尽管答案并不完美,但它会将节点声明为leaf,将示例分类为全“绿色”。
最小叶片大小类似。每个分支导致单个示例的决策树即使可以提供最准确的分类,也不是非常有用。因此,您可以设置树中叶子分类的最小示例数。良好的价值取决于您的数据集和您的需求。运行决策树,如果每次运行中只有几个示例的叶子太多,请增加此参数的值。
标准和最小增益稍微复杂一些。 Criterion是RapdMinder用于判断决策树及其节点有多好的算法。有几种策略,我不太了解它们的工作原理。该标准是RapidMiner用于决定是否应在节点下创建子树或将节点声明为叶子的事项之一。它还应该控制子树从子树的根节点延伸多少个分支。
决策树有更多选项,每种决策树可以有不同的参数。我通过阅读参数的描述,假设如果我更改参数会发生什么,然后创建一个新的决策树以查看我的假设是否正确来了解它们。试验并玩得开心!