标签: machine-learning scikit-learn nlp text-classification supervised-learning
我正在使用scikit-learn监督学习方法进行文本分类。我有一个训练数据集,其中包含输入文本字段及其所属的类别。我使用count vectorizor,SVM分类器管道来创建模型。该解决方案适用于正常的测试用例。但是如果输入的新文本与训练集中具有synoynmous单词,则解决方案无法正确分类。例如:训练数据中可能出现“更改”一词,但如果我使用“更改”一词进行测试,则解决方案无法正确分类。
这里最好的方法是什么?任何链接 感谢