应用错误收集

文本分类的随机森林模型

时间：2015-12-28 21:50:54

标签： python python-2.7 scikit-learn nltk

我有文本数据集，我在其中手动将每个记录分类为两个可能的类之一。我在语料库上创建了一个TFIDF，没有英语停用词，训练/测试了一个随机森林分类器，评估了模型，并将模型应用于更大的文本语料库。到目前为止一切都很好，但是如何找到关于我的模型的更多信息，即如何找出哪些词对模型“重要”？

1 个答案:

答案 0 :(得分：5)

训练有素的RF应具有属性feature_importances_。我认为你必须使用oob_score=True（在构造函数中）训练模型。功能重要性将告诉您哪些功能（数据矩阵列）具有影响力。要获得单词，请返回到tfidf向量化器并获取其vocabulary_属性（请注意尾随下划线），这是一个从单词到列索引的单词。

有关词汇表属性的说明，请参阅此帖子：sklearn : TFIDF Transformer : How to get tf-idf values of given words in document