创建一个简单的数据集来训练印刷文本OCR的神经网络

时间:2017-10-03 21:22:14

标签: machine-learning neural-network data-science training-data

我想训练一个神经网络来识别文本上只有一种字体(Times Roman)。我可以为每个角色只拿一个训练样本吗?

我的理由是字体不会变化而不是手写字体。唯一可能改变的是角度和亮度,我可以在训练模型后推断它之前清理它。或者我错过了什么?

1 个答案:

答案 0 :(得分:0)

这取决于您输入的来源。如果输入将是截图并且字体始终相同(包括字体大小,粗体等)并且始终使用相同的颜色。然后你可能只用一套就可以逃脱。

如果您正在处理来自扫描仪或照片的输入,那么您可能最终会得到部分截止字符,页面弯曲或角度3D摄影中的扭曲字符,页面上的污迹以及数百万其他未成年人差异。您可以在将其发送到OCR之前尝试清理它们,但是您的清洁功能需要比OCR功能更先进才能工作,因此可能更容易为您使用一堆不同的学习集OCR神经网络。