如何改善tesseract对特定字体的识别?

时间:2019-03-26 18:01:18

标签: python ocr tesseract training-data

我试图让tesseract识别屏幕截图中的文本(鉴于它是透明的文本,这应该相对容易),但是当我尝试训练它以更准确的方式识别文本时,结果完全崩溃了

没有培训文件,tesseract的准确性约为90%。但是使用仅包含目标文本字体的训练文件,由于某种原因,它完全无法使用。

您可能会争辩说,我的目标图像需要进行预处理才能获得更好的效果,但是我的文字像小刀一样锋利,在白色背景上尽可能清晰地显示黑色文字,并且放大到754 x 110像素,只有3个字。 / p>

这是脚本中的代码,该代码读取文本并将其写入文件

    from PIL import Image
    import pytesseract
    im = Image.open("open accounts2.png")
    #variable to save ocr'd text to
    text = pytesseract.image_to_string(im, lang = 'noumlaut')
    f= open("test3.txt","w+")
    f.write(text)

文本文件应显示为“选择航空服务”,而应显示为“ SBIBQE Air SaniQBB”

没有我的训练文件,输出文本为“ Select Ar Services” 在大多数情况下,这是可以忽略不计的误差范围,但这对我而言是没有用的。特别是当我给它提供清晰的文字时。

0 个答案:

没有答案