屏幕截图上的tesseract OCR给出了非常不稳定的结果。即使图像是完全黑色的,上面带有白色文本,也似乎只能正确识别某些文本。即使在将图像调整为300dpi
大小之后,精度仍然很低,并且大多数文本都是乱码。
我在Best way to recognize characters in screenshot?
上阅读了关于StackOverflow的类似问题。如前所述,问题的作者通过使用其字体训练tesseract引擎能够获得近100%的准确性。
我图像中的字体是Arial。我如何仍能提高准确性?
以下是我拥有的图像类型的示例: Image Sample
答案 0 :(得分:1)
答案 1 :(得分:0)
这个问题很老,但在谷歌搜索中排在第一位,所以我想,我会回答。我有一个非常相似的问题,以为我会发疯,但后来偶然发现了这个页面:https://tesseract-ocr.github.io/tessdoc/ImproveQuality
那里说: 反转图像 虽然 tesseract 3.05 版(及更早版本)可以毫无问题地处理倒置图像(深色背景和浅色文本),但对于 4.x 版本,在浅色背景上使用深色文本。
我使用 ImageMagick 对图像进行了否定,然后就可以了:100% 匹配!