标签: ocr tesseract training-data
在tesseract documentation中,解释了使用示例文本和字体进行培训的方法 我使用 jTessBoxEditor ,但其工作方式与tesseract培训工具非常相似 我得到了一些可接受的结果,但我认为最佳解决方案是训练tesseract,无论如何都必须识别实际类型的图像。 由于我只需要识别数字,我可以手动切割每个数字,也许每个数字的许多版本,并用这些图像训练tesseract,甚至手动设置框。 有没有办法做到这一点?
答案 0 :(得分:0)
如果您尝试训练tesseract4,则可以使用ocrd-train 您基本上会准备与文本的每一行相对应的图像及其基本事实,它将为您完成所有剩余的工作。