选择GBM模型的采样率

时间:2015-06-18 13:24:04

标签: machine-learning modeling sampling gbm

我创建了几个GBM模型来调整我的数据的参数(树,缩小和深度),并且该模型在非实时样本上表现良好。这些数据是信用卡交易(运行数百万),因此我采样了1%的好(非事件)和100%的坏事。

然而,当我将样本量增加到商品的3%时,性能有了明显的改善。我的问题是 - 我如何确定最佳采样率,而不是运行多次迭代并决定哪一次最合适?有没有关于这个的理论?

我总共有大约300万笔交易(1%的样本),包含380k个坏处和〜250个变量

0 个答案:

没有答案