Question

我在python中使用Tesseract-OCR版本3.05 dev来OCR一些文件。我的主要问题是打字机字体中的数字4。它几乎总是错过它并输出空而不是4或一些不正确的文本。我上传了一张示例图片。

我也不必使用tesseract，如果你对其他（更好的）引擎有建议，请告诉我。

Answer 1

如果您只查找数字，可以添加仅包含数字的白名单。 c ++中的示例：

tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");

如果这不起作用，我建议您为这种特定字体训练tesseract-ocr。可在此处找到一份清晰明了的指南：https://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57

希望这有助于解决您的问题。：）