我正在尝试在数据集中测试一些功能重要性模型。我正在使用过滤器方法,嵌入式方法和包装器方法。我有以下问题:
1)过滤方法(卡方,皮尔逊相关):由于火车和考试分开的概念不适用于过滤方法,我只应使用X和y是正确的吗?
>
2)对于嵌入式和包装方法,我仅发现在模型中使用X_train,y_train的示例,但未使用X_test,y_test(包括交叉验证)以及功能的质量或重要性度量的示例。这是一个示例:
X = df.drop(['id', 'target'], axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
#Random Forest for FEATURE IMPORTANCE
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
embeded_rf_selector = SelectFromModel(RandomForestClassifier(n_estimators=100))
embeded_rf_selector.fit(X_train, y_train)
embeded_rf_support = embeded_rf_selector.get_support()
embeded_rf_feature = X_train.loc[:,embeded_rf_support].columns.tolist()
如何将具有重要特征的模型与特征的质量或权重一起应用于TEST数据集(具有交叉验证)?另外,到目前为止,我将逐一介绍“要素重要性”模型。因此,如果有人可以为该任务引用出色的管道脚本,我将不胜感激。
谢谢!