应用错误收集

如何在监督学习文本分类中添加同义词

时间：2018-02-25 14:05:31

标签： machine-learning scikit-learn nlp text-classification supervised-learning

我正在使用scikit-learn监督学习方法进行文本分类。我有一个训练数据集，其中包含输入文本字段及其所属的类别。我使用count vectorizor，SVM分类器管道来创建模型。该解决方案适用于正常的测试用例。但是如果输入的新文本与训练集中具有synoynmous单词，则解决方案无法正确分类。例如：训练数据中可能出现“更改”一词，但如果我使用“更改”一词进行测试，则解决方案无法正确分类。

这里最好的方法是什么？任何链接
感谢

0 个答案:

没有答案

机器学习文本分类技术
给定一个特征向量，如何查找我的数据点是否可线性分离
弱学习者是否真的必须有错误＆lt;任何分布的1/2？
解决监督学习文本分类中的同义词
使用Google搜索术语列表，以便为特定类别构建一个词袋
在监督学习中分类器训练需要多少记录
训练具有文本功能的估算器
如何在监督学习文本分类中添加同义词
确定多少类可分离性将影响分类结果
文本分类：基于长文档的培训并将其应用于短句

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？