将图像中的文本转换为可读文本

时间:2018-03-02 17:04:33

标签: python image image-processing artificial-intelligence tesseract

我使用tesseract-ocr将图像中的文本转换为文本..

pytesseract -l eng <filepath>image1.jpg

因为文字大小太小,图像输出是乱码..这里是图像..

enter image description here

来自tesseract的文档:有一个最小的文本大小,以确保合理的准确性。你必须考虑分辨率和点大小。精度降至10pt x 300dpi以下,迅速低于8pt x 300dpi。低于10个像素的x高度,您获得准确结果的可能性很小,低于约8个像素,大部分文本将被“去除噪声”。

我的问题是:有解决方法吗?更改图像中的DPI或文本大小?

1 个答案:

答案 0 :(得分:0)

在我使用online ocr的测试中,将图像升级到200%会大大提高效果。

enter image description here