如果我将FeatureUnion的transformer_weights设置为0会怎样?我想知道我可以使用这种方法来选择GridSearchCV中的一组功能。通过这种方式,我可以利用GridSearchCV的交叉验证来测试某个功能是否能改进预测。
此外,任何关于不同模型对此transformer_weights如何反应的想法都会发生变化。我认为具有平滑功能的MultinationalNB可用于测试一组功能是否有用的想法。
(或者关于如何测试特征重要性的任何其他想法?我的另一个想法是做一个特征选择,看看'羽毛被测试'是否被各种特征选择方法删除。但另一方面, GridSearchCV对保留数据集的最佳估计器的预测性能是一个“终极”测试,所以我仍然会使用这个测试代替特征选择。)
以下是FeatureUnion的示例管道。
pipeline = Pipeline([
# Use FeatureUnion to combine the features
('union', FeatureUnion(
transformer_list=[
# Pipeline for pulling features from the post's subject line
('subject', Pipeline([
('selector', ItemSelector(key='subject')),
('tfidf', TfidfVectorizer(min_df=50)),
])),
# Pipeline for standard bag-of-words model for body
('body_bow', Pipeline([
('selector', ItemSelector(key='body')),
('tfidf', TfidfVectorizer()),
('best', TruncatedSVD(n_components=50)),
])),
],
# weight components in FeatureUnion
transformer_weights={
'body_bow': 1.0,
'subject': 0.0,
},
)),
('svc', SVC(kernel='linear')),
])
可以找到Matt Terry的完整示例here:
答案 0 :(得分:0)
它只是某些变压器输出的常数乘数。即,您可以假设默认情况下,每个变换器的常量为1,并且您的FeatureUnion将输出:
numpy.hstack((body_bow_output_matrix*1.0, subject_output_matrix*0.0))
也请阅读此feature selection。