应用错误收集

NLP ML如何知道文本分类器中使用的单词的权重？

时间：2018-11-24 00:52:33

标签： python machine-learning nlp nltk text-classification

我正在构建一个推文分类器，在该分类器中，我尝试训练不同的ML模型以对来自2个不同的推文帐户的推文进行分类。到目前为止，我已经训练了Logistic回归模型，K邻居分类器和决策树分类器。

有没有办法知道这些分类器用来预测帐户的推文中的哪些词？像分类过程中单词的权重？我愿意培训也可以做到的新分类器。

已经对诸如单词频率之类的推文进行了一些ngram分析。

先谢谢！

2 个答案:

答案 0 :(得分：0)

有很多方法，但是它们取决于分类器。由于您标记了此nltk，因此，我假设您正在使用nltk的分类器。假设您已经训练了NaiveBayesClassifier进行分类任务。训练有素的分类器具有方法most_informative_features()，该方法将向您显示与某个类别最相关的特征（单词）。您可以要求它为您显示尽可能多的功能。

如果提供内存，则几个nltk分类器具有等效的方法；但您必须寻找所用的。更一般而言，您可以检查任何分类器的内部表，并研究代码以了解数字的含义。（如果您在看代码之前先了解算法，将会很有帮助。）

答案 1 :(得分：0)

您可以尝试像LIME这样的黑匣子检查器。它解释了给定示例中任何分类器的决策。