Question

我建立了一个scikit SGD分类器。 X值是一组关键字，Y是一个类别。

例如：

X - Y
Lunch - eat
dinner - eat
drink - eat
leave - event
plan - event
lunch plan - event
event - event

“午餐和午餐活动”关键字的类别重叠。这些是示例。但是当重叠时给我错误的预测。我已经使用了计数向量化器和tfidf转换器，并将其发送给prediciton。但是它给出了错误的类别。 以任何方式知道它选择了哪个关键字来预测类别？ 例如：“午餐已定”-吃

X= "The birthday event is coming" - Event
//Fit transform done
predict = model.pred(X)    
print(predict) //Event

如何获取用于预测“事件”类别的关键字？

Answer 1

您可以使用coef_属性访问赋予特征的权重。

您可以在此处查看文档：

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html

一种解决问题的方法是使用2克，因此您可以将其作为特征：

您可以在count_vectorizer的ngram_range参数中进行设置：

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html