如何实施监督学习任务

时间:2016-11-07 20:21:04

标签: python machine-learning scikit-learn

我正在尝试实现一种机器学习算法,它将帮助我实现两个目标:

1)根据内容将一组中的给定字符串分类为预定类别 2)估计给定字符串属于类别

的置信度

一组示例字符串及其类别如下:

  

“右后挡泥板损坏” - 问题

     

“Scratch。侧视镜” - 问题

     

“2016年12月23日下一次定期维护” - 预约

     

“客户应在2017年1月1日返回” - 预约

     

“Red car,Volkswagon” - 描述

     

“汽车是深灰色,侧面有大刮痕” - 描述

     

“不要用优质燃料填充汽车” - 说明

     

“发动机应在行驶前冷却至<100摄氏度” - 说明

我是机器学习的新手,所以我试图找出在python中实现我的目标的最佳方法。我有一个大约1000个字符串的训练集和5000个字符串的测试集。

我的第一种方法是尝试One vs. Rest classifier using Scikit(感谢@Cerin和@JMaurer),但在实施时结果不是很好(只有55%的结果在人工审核中被正确分类)。我怀疑因为这些字符串包含有助于其整体分类的符号和数字。

是否有其他人有更多经验可以评论这是否是正确的任务方法,或者是否有更好的方法可以利用?我有点黑暗,我真的在寻找一些面包屑来指引我正确的方向。

感谢。

0 个答案:

没有答案