我正在构建一个推文分类器,在该分类器中,我尝试训练不同的ML模型以对来自2个不同的推文帐户的推文进行分类。到目前为止,我已经训练了Logistic回归模型,K邻居分类器和决策树分类器。
有没有办法知道这些分类器用来预测帐户的推文中的哪些词?像分类过程中单词的权重?我愿意培训也可以做到的新分类器。
已经对诸如单词频率之类的推文进行了一些ngram分析。
先谢谢!
答案 0 :(得分:0)
有很多方法,但是它们取决于分类器。由于您标记了此nltk
,因此,我假设您正在使用nltk的分类器。假设您已经训练了NaiveBayesClassifier
进行分类任务。训练有素的分类器具有方法most_informative_features()
,该方法将向您显示与某个类别最相关的特征(单词)。您可以要求它为您显示尽可能多的功能。
如果提供内存,则几个nltk分类器具有等效的方法;但您必须寻找所用的。更一般而言,您可以检查任何分类器的内部表,并研究代码以了解数字的含义。 (如果您在看代码之前先了解算法,将会很有帮助。)
答案 1 :(得分:0)
您可以尝试像LIME这样的黑匣子检查器。它解释了给定示例中任何分类器的决策。