我正在研究回归问题,并已使用LGBMRegressor。我首先将其与GridSearchCV一起使用,并获得了num_leaves = 50作为最佳值。我的数据集是425000 obs X 150变量,在将LGBM与网格搜索的最佳参数(和num_leaves = 50)一起使用后,我发现根据LGB重要性函数有20个重要特征。
现在我的功能集已减少到20个(全为数字)功能,如何选择最佳num_levaes?由于时间限制,无法再次进行网格搜索。根据文档num_levaes的深度应小于2 ^ depth,在我的情况下,depth = 7或8意味着num_leaves的深度应小于2 ^ 7 = 128,这太高了,将导致过度拟合。
那么对于425000 X 20要素(所有数字要素)数据集应该正确使用num_leaves有什么想法?
任何设置num_leaves的准则/方法都会有所帮助。
谢谢