我正在开展一项大学项目来检测照片中的字母。我可以成功地从照片中提取单词,将它们剪切成单个字母,黑色和白色背景。这些图片看起来很清楚。
我已经从Python scikit库中训练了SVC分类器,如下所示:
classifier = svm.SVC(gamma = 0.001)
它已经训练了大约800个字母,这些字母是我使用我的脚本从单词中获得的。当分类器在训练它的字母上工作时,分类器可以很好地预测字母。但是,当我提供一个使用相同脚本从另一个单词获得的新字母时,它每次都会失败。旧的和新的例子看起来非常相似。
你能否告诉我如何改善这种情况?
我还从在线提供的现成子集中训练了这个26k字母的分类器。结果是相同的 - 完美的训练数据,新数据失败。