标签: machine-learning data-science random-forest decision-tree xgboost
我正在使用60项观测值* 90个特征数据(所有连续变量),并且响应变量也是连续的。这90个功能是高度相关的,其中一些功能可能是多余的。我在python(xgb.feature_importances_)中使用增益特征重要性,总结为1。我运行xgboost 100次,并基于100次运行中的平均变量重要性等级选择特征。假设我选择了10个因素,然后在这10个特征上再次使用相同的超参数运行xgboost,令人惊讶的是,最重要的特征在这10个变量中变得最不重要。