应用错误收集

时间：2012-12-29 21:20:26

标签： machine-learning data-mining rapidminer

我正在处理一个相当大的数据集（770K记录，2K属性，几乎所有这些属性都是二项式但是整数形式），

我想通过10倍交叉验证对数据应用决策树，但我遇到了一些问题：

1.为什么决策树（例如深度为10）需要花费这么多时间来训练？实际上我在训练树之前将数据（因为它是不平衡的）平衡到原始大小的40％（~320K记录），但是它仍然需要很长时间，是否有任何其他版本的决策树产生相同的性能和花更少的时间？（以二项式形式制作属性会使它更快吗？）

2.如何优化决策树的参数？我应该在整个X验证中对其进行优化吗？

答案 0 :(得分：1)

您是否有理由将二进制属性标记为整数？对于二项式属性，归纳确实更快，否则树归纳算法需要为每个节点找到每个属性的最佳分割。

诱导这样一棵树需要多长时间？你使用的是哪种算法？

关于参数优化：需要在每个X验证循环内的单独集合上完成。请参阅此工作流程，了解如何执行此操作：http://www.myexperiment.org/workflows/3263.html