Question

我正在查看一个内核实现（用于文本分类），下面的代码让我有些困惑（我删除了部分功能-为了保持功能轻便-因为它们中的大多数都是相似的-例如否定，肯定，中性的字数）：

pipeline_ = Pipeline([
    ('fu', FeatureUnion([
        ('tfdif_features', Pipeline([
            ('cv', CountVectorizer()),
            ('tfidf', TfidfTransformer()),
            ('tfidf_', Wrapper(RandomForestClassifier())),
        ])),
        ('nb_pos_features', Pipeline([
            ('nb_pos', NumberSelector('posWords') ),
            ('nb_pos_', Wrapper(RandomForestClassifier())),
        ])),
    ])),
    ('xgb', XGBClassifier()),
])

起初，我认为它看起来像是套袋，因为每个功能都会创建一个基础模型，然后进行增强。但是，在这种情况下，随机森林不是决策树吗？为什么要使用随机森林而不是其他方式（例如逻辑回归）？

任何澄清将不胜感激。

一起使用套袋和随机森林

0 个答案: