我使用$ locale -a
[...]
C.UTF-8
de_AT.utf-8
de_DE.utf-8
en_AG
[...]
从图像中识别文本
pytesseract
然后我使用下面的代码标识文本
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
这是我的输入图片
这是我的输出文本文件的图像
有什么方法可以从图像中清楚地识别文本
答案 0 :(得分:1)
您可以尝试通过缩短字符集并仅允许使用您的特定语言合法的字符(不包括数字,特殊字符等)来改善结果。 This Answer will help。
Tesseract OCR并不是找出图像中字符的最佳方法。您可以尝试稍微处理图像,以改善效果。 This will help
我通常更喜欢该网站www.onlineocr.net进行光学字符识别,因为每次的结果几乎都是完美的。您可以尝试使用自己的API进行字符识别(需要互联网连接才能正常工作)。使用此API所获得的结果远优于tesseract OCR。因此,您可以尝试一下。