如何将X_train,X_test,y_train,y_test用于特征重要性和返回质量指标?

时间:2020-05-18 01:38:24

标签: python pandas machine-learning random-forest feature-selection

我正在尝试在数据集中测试一些功能重要性模型。我正在使用过滤器方法,嵌入式方法和包装器方法。我有以下问题:

1)过滤方法(卡方,皮尔逊相关):由于火车和考试分开的概念不适用于过滤方法,我只应使用X和y是正确的吗?

2)对于嵌入式和包装方法,我仅发现在模型中使用X_train,y_train的示例,但未使用X_test,y_test(包括交叉验证)以及功能的质量或重要性度量的示例。这是一个示例:

X = df.drop(['id', 'target'], axis=1)    
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#Random Forest for FEATURE IMPORTANCE
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

embeded_rf_selector = SelectFromModel(RandomForestClassifier(n_estimators=100))
embeded_rf_selector.fit(X_train, y_train)
embeded_rf_support = embeded_rf_selector.get_support()
embeded_rf_feature = X_train.loc[:,embeded_rf_support].columns.tolist()

如何将具有重要特征的模型与特征的质量或权重一起应用于TEST数据集(具有交叉验证)?另外,到目前为止,我将逐一介绍“要素重要性”模型。因此,如果有人可以为该任务引用出色的管道脚本,我将不胜感激。

谢谢!

0 个答案:

没有答案