python - 如何解决python-tesseract OCR中的字母混乱？

如何解决python-tesseract OCR中的字母混乱？

时间：2020-06-10 15:58:37

标签： python ocr python-tesseract

我正在尝试使用OCR和正则表达式提取增值税发票编号，但是很多时候字母B与数字8混淆。例如，增值税编号为 B28125185 ，而OCR返回 828125185 。当然，正则表达式不会检测增值税号。我已经阅读了一些有关Levenshtein距离的信息，但我不知道如何实现。有办法解决这个问题吗？

谢谢

1 个答案:

答案 0 :(得分：1)

如果您使用的图像具有特定字体，则可以考虑根据需要训练模型。这是描述该过程的视频： https://www.youtube.com/watch?v=TpD76k2HYms

或者，您可以尝试对图像进行训练-提供增值税号及其文字的图像，以教tesseract它们的外观。

以下是培训文档的链接：

https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining

用python解决混乱的字谜题？
如何将tesseract只识别数字，当它们与字母混合时？
如何获取Tesseract ocr检索到的字母坐标
如何避免Tesseract将小行识别为数字或字母？
Tesseract误解了发票中的字母
阅读tesseract中具有混合字符类型的单词
pytesseract 5.0.0返回混合数字和字母的非有意义结果
如何使用pytesseract检测气泡字母数字
如何解决python-tesseract OCR中的字母混乱？
tesseract 4.1.1中是否有解决混合语言问题的解决方案？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？