machine-learning - 选择GBM模型的采样率

我创建了几个GBM模型来调整我的数据的参数（树，缩小和深度），并且该模型在非实时样本上表现良好。这些数据是信用卡交易（运行数百万），因此我采样了1％的好（非事件）和100％的坏事。

然而，当我将样本量增加到商品的3％时，性能有了明显的改善。我的问题是 - 我如何确定最佳采样率，而不是运行多次迭代并决定哪一次最合适？有没有关于这个的理论？

我总共有大约300万笔交易（1％的样本），包含380k个坏处和〜250个变量