随机森林回归的特征选择

时间:2018-01-08 17:21:21

标签: scikit-learn regression random-forest feature-selection

我正在尝试从sklearn训练一个随机森林回归者。我要训练的功能有不同的类型,数字连续,数字分类,文本分类(姓名/国籍),纬度和经度。

我想知道的是所有功能,如何确定最有用的功能集来训练我的随机森林回归器?

1 个答案:

答案 0 :(得分:1)

首先,在数据上运行随机森林模型。

rf= RandomForestRegressor()
rf.fit(train_data,train_labels)

然后使用功能重要性属性了解功能的重要性,从中可以过滤掉功能。

print(rf.feature_importances_)

再次在选定的功能上运行您的模型。

您可以使用更多技术,如关联,pca等。拥有领域知识也可以在构建模型时为您提供优势。