我正在尝试使用OCR和正则表达式提取增值税发票编号,但是很多时候字母B与数字8混淆。例如,增值税编号为 B28125185 ,而OCR返回 828125185 。 当然,正则表达式不会检测增值税号。我已经阅读了一些有关Levenshtein距离的信息,但我不知道如何实现。有办法解决这个问题吗?
谢谢
答案 0 :(得分:1)
如果您使用的图像具有特定字体,则可以考虑根据需要训练模型。这是描述该过程的视频: https://www.youtube.com/watch?v=TpD76k2HYms
或者,您可以尝试对图像进行训练-提供增值税号及其文字的图像,以教tesseract它们的外观。
以下是培训文档的链接:
https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining