如何在ScikitLearn中查看任何模型中某个特征的相关性?

时间:2017-09-20 18:24:17

标签: python machine-learning scikit-learn nlp

我正在使用Logistic回归和来自scikit的线性SVC学习将文档分类为由标签0和标签1表示的2个类别。我使用TFIDF Vectorizer进行特征选择,我从测试中提取了所有非零特征文档使用TFIDF Vectorizer的转换函数,现在我想知道特定的特征是用于标签1还是标签0.

基本上我想知道我的分类器是否给了我作为标签0的答案,然后根据它给出答案的特征。

1 个答案:

答案 0 :(得分:0)

您可以使用get_feature_names()函数提取要素名称。您将获得要素索引到要素名称的数组映射。您可以阅读更多相关信息here

This example说明了如何打印要素名称。

您可以从this link获取相应的相关值。跳到标题为“了解tf-idf矩阵的部分。您将看到使用feature_names()来提取最高值。

编辑:不同的分类器有不同的方法来提取特征相关性。您可以使用SelectFromModel in sklearn根据所选的分类器提取要素。您可以使用它的get_support函数来获取要素索引。 Here是同样的例子。