如何解决python-tesseract OCR中的字母混乱?

时间:2020-06-10 15:58:37

标签: python ocr python-tesseract

我正在尝试使用OCR和正则表达式提取增值税发票编号,但是很多时候字母B与数字8混淆。例如,增值税编号为 B28125185 ,而OCR返回 828125185 。 当然,正则表达式不会检测增值税号。我已经阅读了一些有关Levenshtein距离的信息,但我不知道如何实现。有办法解决这个问题吗?

谢谢

1 个答案:

答案 0 :(得分:1)

如果您使用的图像具有特定字体,则可以考虑根据需要训练模型。这是描述该过程的视频: https://www.youtube.com/watch?v=TpD76k2HYms

或者,您可以尝试对图像进行训练-提供增值税号及其文字的图像,以教tesseract它们的外观。

以下是培训文档的链接:

https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining