我建立了一个scikit SGD分类器。 X值是一组关键字,Y是一个类别。
例如:
X - Y
Lunch - eat
dinner - eat
drink - eat
leave - event
plan - event
lunch plan - event
event - event
“午餐和午餐活动”关键字的类别重叠。这些是示例。但是当重叠时给我错误的预测。我已经使用了计数向量化器和tfidf转换器,并将其发送给prediciton。但是它给出了错误的类别。 以任何方式知道它选择了哪个关键字来预测类别? 例如:“午餐已定”-吃
X= "The birthday event is coming" - Event
//Fit transform done
predict = model.pred(X)
print(predict) //Event
如何获取用于预测“事件”类别的关键字?
答案 0 :(得分:1)
您可以使用coef_属性访问赋予特征的权重。
您可以在此处查看文档:
http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html
一种解决问题的方法是使用2克,因此您可以将其作为特征:
您可以在count_vectorizer的ngram_range参数中进行设置: