找到,这些预测是如何发生的?

时间:2018-10-12 07:27:45

标签: python scikit-learn

我建立了一个scikit SGD分类器。 X值是一组关键字,Y是一个类别。

例如:

X - Y
Lunch - eat
dinner - eat
drink - eat
leave - event
plan - event
lunch plan - event
event - event

“午餐和午餐活动”关键字的类别重叠。这些是示例。但是当重叠时给我错误的预测。我已经使用了计数向量化器和tfidf转换器,并将其发送给prediciton。但是它给出了错误的类别。 以任何方式知道它选择了哪个关键字来预测类别? 例如:“午餐已定”-吃

X= "The birthday event is coming" - Event
//Fit transform done
predict = model.pred(X)    
print(predict) //Event

如何获取用于预测“事件”类别的关键字?

1 个答案:

答案 0 :(得分:1)

您可以使用coef_属性访问赋予特征的权重。

您可以在此处查看文档:

  

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html

一种解决问题的方法是使用2克,因此您可以将其作为特征:

  • 午餐
  • 事件
  • 午餐活动

您可以在count_vectorizer的ngram_range参数中进行设置:

  

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html