我正在查看一个内核实现(用于文本分类),下面的代码让我有些困惑(我删除了部分功能-为了保持功能轻便-因为它们中的大多数都是相似的-例如否定,肯定,中性的字数):
pipeline_ = Pipeline([
('fu', FeatureUnion([
('tfdif_features', Pipeline([
('cv', CountVectorizer()),
('tfidf', TfidfTransformer()),
('tfidf_', Wrapper(RandomForestClassifier())),
])),
('nb_pos_features', Pipeline([
('nb_pos', NumberSelector('posWords') ),
('nb_pos_', Wrapper(RandomForestClassifier())),
])),
])),
('xgb', XGBClassifier()),
])
起初,我认为它看起来像是套袋,因为每个功能都会创建一个基础模型,然后进行增强。但是,在这种情况下,随机森林不是决策树吗?为什么要使用随机森林而不是其他方式(例如逻辑回归)?
任何澄清将不胜感激。