你能用图像而不是文字和字体训练tesseract吗?

时间:2018-02-25 05:40:18

标签: ocr tesseract training-data

在tesseract documentation中,解释了使用示例文本和字体进行培训的方法 我使用 jTessBoxEditor ,但其工作方式与tesseract培训工具非常相似 我得到了一些可接受的结果,但我认为最佳解决方案是训练tesseract,无论如何都必须识别实际类型的图像。
由于我只需要识别数字,我可以手动切割每个数字,也许每个数字的许多版本,并用这些图像训练tesseract,甚至手动设置框。
有没有办法做到这一点?

1 个答案:

答案 0 :(得分:0)

如果您尝试训练tesseract4,则可以使用ocrd-train 您基本上会准备与文本的每一行相对应的图像及其基本事实,它将为您完成所有剩余的工作。