Question

我试图让tesseract识别屏幕截图中的文本（鉴于它是透明的文本，这应该相对容易），但是当我尝试训练它以更准确的方式识别文本时，结果完全崩溃了

没有培训文件，tesseract的准确性约为90％。但是使用仅包含目标文本字体的训练文件，由于某种原因，它完全无法使用。

您可能会争辩说，我的目标图像需要进行预处理才能获得更好的效果，但是我的文字像小刀一样锋利，在白色背景上尽可能清晰地显示黑色文字，并且放大到754 x 110像素，只有3个字。 / p>

这是脚本中的代码，该代码读取文本并将其写入文件

    from PIL import Image
    import pytesseract
    im = Image.open("open accounts2.png")
    #variable to save ocr'd text to
    text = pytesseract.image_to_string(im, lang = 'noumlaut')
    f= open("test3.txt","w+")
    f.write(text)

文本文件应显示为“选择航空服务”，而应显示为“ SBIBQE Air SaniQBB”

没有我的训练文件，输出文本为“ Select Ar Services” 在大多数情况下，这是可以忽略不计的误差范围，但这对我而言是没有用的。特别是当我给它提供清晰的文字时。

如何改善tesseract对特定字体的识别？

0 个答案: