Question

我使用tesseract-ocr将图像中的文本转换为文本..

pytesseract -l eng <filepath>image1.jpg

因为文字大小太小，图像输出是乱码..这里是图像..

来自tesseract的文档：有一个最小的文本大小，以确保合理的准确性。你必须考虑分辨率和点大小。精度降至10pt x 300dpi以下，迅速低于8pt x 300dpi。低于10个像素的x高度，您获得准确结果的可能性很小，低于约8个像素，大部分文本将被“去除噪声”。

我的问题是：有解决方法吗？更改图像中的DPI或文本大小？

Answer 1

在我使用online ocr的测试中，将图像升级到200％会大大提高效果。