如何使用tesseract和python正确OCR打字机字体

时间:2016-05-06 22:26:31

标签: ocr tesseract python-tesseract

我在python中使用Tesseract-OCR版本3.05 dev来OCR一些文件。我的主要问题是打字机字体中的数字4。它几乎总是错过它并输出空而不是4或一些不正确的文本。 我上传了一张示例图片。enter image description here

我也不必使用tesseract,如果你对其他(更好的)引擎有建议,请告诉我。

1 个答案:

答案 0 :(得分:3)

如果您只查找数字,可以添加仅包含数字的白名单。 c ++中的示例:

tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");

如果这不起作用,我建议您为这种特定字体训练tesseract-ocr。可在此处找到一份清晰明了的指南:https://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57

希望这有助于解决您的问题。 :)