Question

我使用$ locale -a [...] C.UTF-8 de_AT.utf-8 de_DE.utf-8 en_AG [...]从图像中识别文本

pytesseract

然后我使用下面的代码标识文本

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

这是我的输入图片

这是我的输出文本文件的图像

有什么方法可以从图像中清楚地识别文本

Answer 1

您可以尝试通过缩短字符集并仅允许使用您的特定语言合法的字符（不包括数字，特殊字符等）来改善结果。 This Answer will help。

Tesseract OCR并不是找出图像中字符的最佳方法。您可以尝试稍微处理图像，以改善效果。 This will help

我通常更喜欢该网站www.onlineocr.net进行光学字符识别，因为每次的结果几乎都是完美的。您可以尝试使用自己的API进行字符识别（需要互联网连接才能正常工作）。使用此API所获得的结果远优于tesseract OCR。因此，您可以尝试一下。