我正在处理一个相当大的数据集(770K记录,2K属性,几乎所有这些属性都是二项式但是整数形式),
我想通过10倍交叉验证对数据应用决策树,但我遇到了一些问题:
1.为什么决策树(例如深度为10)需要花费这么多时间来训练?实际上我在训练树之前将数据(因为它是不平衡的)平衡到原始大小的40%(~320K记录),但是它仍然需要很长时间,是否有任何其他版本的决策树产生相同的性能和花更少的时间? (以二项式形式制作属性会使它更快吗?)
2.如何优化决策树的参数?我应该在整个X验证中对其进行优化吗?
答案 0 :(得分:1)
您是否有理由将二进制属性标记为整数? 对于二项式属性,归纳确实更快,否则树归纳算法需要为每个节点找到每个属性的最佳分割。
诱导这样一棵树需要多长时间?你使用的是哪种算法?
关于参数优化:需要在每个X验证循环内的单独集合上完成。请参阅此工作流程,了解如何执行此操作:http://www.myexperiment.org/workflows/3263.html