一起使用套袋和随机森林

时间:2019-06-17 10:46:05

标签: python machine-learning pipeline random-forest boosting

我正在查看一个内核实现(用于文本分类),下面的代码让我有些困惑(我删除了部分功能-为了保持功能轻便-因为它们中的大多数都是相似的-例如否定,肯定,中性的字数):

pipeline_ = Pipeline([
    ('fu', FeatureUnion([
        ('tfdif_features', Pipeline([
            ('cv', CountVectorizer()),
            ('tfidf', TfidfTransformer()),
            ('tfidf_', Wrapper(RandomForestClassifier())),
        ])),
        ('nb_pos_features', Pipeline([
            ('nb_pos', NumberSelector('posWords') ),
            ('nb_pos_', Wrapper(RandomForestClassifier())),
        ])),
    ])),
    ('xgb', XGBClassifier()),
])

起初,我认为它看起来像是套袋,因为每个功能都会创建一个基础模型,然后进行增强。但是,在这种情况下,随机森林不是决策树吗?为什么要使用随机森林而不是其他方式(例如逻辑回归)?

任何澄清将不胜感激。

0 个答案:

没有答案