从图像python识别明文

时间:2019-05-25 08:55:13

标签: python nlp ocr python-tesseract

我使用$ locale -a [...] C.UTF-8 de_AT.utf-8 de_DE.utf-8 en_AG [...] 从图像中识别文本

pytesseract

然后我使用下面的代码标识文本

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

这是我的输入图片

enter image description here

这是我的输出文本文件的图像

enter image description here

有什么方法可以从图像中清楚地识别文本

1 个答案:

答案 0 :(得分:1)

您可以尝试通过缩短字符集并仅允许使用您的特定语言合法的字符(不包括数字,特殊字符等)来改善结果。 This Answer will help

Tesseract OCR并不是找出图像中字符的最佳方法。您可以尝试稍微处理图像,以改善效果。 This will help

  • 确保图像dpi / ppi高于250,否则结果可能是 不准确。

我通常更喜欢该网站www.onlineocr.net进行光学字符识别,因为每次的结果几乎都是完美的。您可以尝试使用自己的API进行字符识别(需要互联网连接才能正常工作)。使用此API所获得的结果远优于tesseract OCR。因此,您可以尝试一下。