NLP ML如何知道文本分类器中使用的单词的权重?

时间:2018-11-24 00:52:33

标签: python machine-learning nlp nltk text-classification

我正在构建一个推文分类器,在该分类器中,我尝试训练不同的ML模型以对来自2个不同的推文帐户的推文进行分类。到目前为止,我已经训练了Logistic回归模型,K邻居分类器和决策树分类器。

有没有办法知道这些分类器用来预测帐户的推文中的哪些词?像分类过程中单词的权重?我愿意培训也可以做到的新分类器。

已经对诸如单词频率之类的推文进行了一些ngram分析。

先谢谢!

2 个答案:

答案 0 :(得分:0)

有很多方法,但是它们取决于分类器。由于您标记了此nltk,因此,我假设您正在使用nltk的分类器。假设您已经训练了NaiveBayesClassifier进行分类任务。训练有素的分类器具有方法most_informative_features(),该方法将向您显示与某个类别最相关的特征(单词)。您可以要求它为您显示尽可能多的功能。

如果提供内存,则几个nltk分类器具有等效的方法;但您必须寻找所用的。更一般而言,您可以检查任何分类器的内部表,并研究代码以了解数字的含义。 (如果您在看代码之前先了解算法,将会很有帮助。)

答案 1 :(得分:0)

您可以尝试像LIME这样的黑匣子检查器。它解释了给定示例中任何分类器的决策。