信件分类器不准确

时间:2015-11-22 16:18:44

标签: python text scikit-learn classification text-classification

我正在开展一项大学项目来检测照片中的字母。我可以成功地从照片中提取单词,将它们剪切成单个字母,黑色和白色背景。这些图片看起来很清楚。

我已经从Python scikit库中训练了SVC分类器,如下所示:

classifier = svm.SVC(gamma = 0.001)

它已经训练了大约800个字母,这些字母是我使用我的脚本从单词中获得的。当分类器在训练它的字母上工作时,分类器可以很好地预测字母。但是,当我提供一个使用相同脚本从另一个单词获得的新字母时,它每次都会失败。旧的和新的例子看起来非常相似。

你能否告诉我如何改善这种情况?

我还从在线提供的现成子集中训练了这个26k字母的分类器。结果是相同的 - 完美的训练数据,新数据失败。

0 个答案:

没有答案