我有一个非常罕见的事件(0.5%的发生率),我试图建模的概率。我想使用装袋来涵盖所有事件案例(我的整个数据集中的小于1,000)。我相信我可以推出自己的NumPy /基础Python实现,以确保模型有机会从每个事件中学习,但我正在寻找在scikit-learn生态系统中实现此目的的方法。
使用sklearn.ensemble.BaggingClassifier
,我知道当我增加估算器的数量(n_estimators
)时,平均会覆盖更多的事件案例。但是,我想确保每个事件至少被覆盖一次,并且将n_estimators设置为足够高的值以确保来自CLT的事件在我的情况下是禁止的。
有没有人能够在scikit-learn生态系统中完成这项任务?