我正在使用Logistic回归和来自scikit的线性SVC学习将文档分类为由标签0和标签1表示的2个类别。我使用TFIDF Vectorizer进行特征选择,我从测试中提取了所有非零特征文档使用TFIDF Vectorizer的转换函数,现在我想知道特定的特征是用于标签1还是标签0.
基本上我想知道我的分类器是否给了我作为标签0的答案,然后根据它给出答案的特征。
答案 0 :(得分:0)
您可以使用get_feature_names()
函数提取要素名称。您将获得要素索引到要素名称的数组映射。您可以阅读更多相关信息here。
This example说明了如何打印要素名称。
您可以从this link获取相应的相关值。跳到标题为“了解tf-idf矩阵的部分。您将看到使用feature_names()
来提取最高值。
编辑:不同的分类器有不同的方法来提取特征相关性。您可以使用SelectFromModel in sklearn根据所选的分类器提取要素。您可以使用它的get_support
函数来获取要素索引。 Here是同样的例子。