Question

我正在从某些图像加载文本。对于其中一些，我遇到了问题，with this type of image

library(magick)
library(tesseract)
image_read(fichero.jpg) %>%
  tesseract::ocr(engine = tesseract("eng")) %>%
  cat()

我假设（如果没有，请纠正）由于图像质量低（扫描的文档）而导致tesseract失败，并且我不知道是否有办法使图像更好。

我还尝试了几种带有多个内核的抽风方法，试图减少照片的噪点，但效果更糟。

有没有办法解决这个问题，或者我不得不假设无法在此质量图像中获得文本？

致谢

Answer 1

以摄影师而不是程序员的经验来看待这个问题，我猜想对焦不佳和照相机抖动会使大多数OCR选项无法很好地读取该图像。我只是在Adobe Acrobat中使用OCR在自己的PC上玩它，所以我可以识别“ FECHA”，但不能识别“ NUMERO”，也不能识别任何数字。

我将其拉入照片编辑器并弄乱了对比度，因为有时可以将诸如此类的灰度图像转换为纯黑白图像，并消除一些模糊性，但是我做不到在我的快速和肮脏的实验中产生可读的图像。

实际上，您需要以更高的分辨率和更好的对比度扫描/拍摄的图像，以获得可靠的OCR。

Answer 2

您似乎正在尝试用碎牛肉制成一头母牛。最大的问题是JPEG不适合此类非摄影图像。您的png看起来不错，因为它是无损格式。

如果您不希望出现此问题，请不要将文件另存为JPEG。