提取WHY标签是在分类时选择的?

时间:2016-08-02 14:24:39

标签: machine-learning scikit-learn

我目前有一个系统设置,我从旧帖子/类别进行训练,并尝试预测新帖子的类别。我正在使用带有TfidfVectorizerLinearSVC的管道来训练数据集并将其存储在pickle中,然后我通过加载pickle并使用加载的pickle中的predict进行分类来处理新帖子新帖子。目前,我正在努力争取一些标签,我不知道为什么。

我希望提供一些关于每个分类标签的新帖子中触发的单词的输出,以便我可以看到为什么在对训练集分类新数据时选择了某个标签,但我找不到办法这样做。

我知道我可以在训练时输出矢量图中的顶级功能,但是如何输出原因为什么选择某个标签而不是另一个?

1 个答案:

答案 0 :(得分:1)

在语料库词汇表的每个单词的SVM训练阶段,您将学习每个类的权重。

然后,在推理期间,您计算类权重与要分类的实例的向量描述之间的点积。该算法返回产生最高点积分数的类。因此,您可以通过检查实例的权重(coef_属性)来估计事物的工作方式。

我同意其他方法,如树木更容易理解。