如何减少图像的噪点?

时间:2019-06-20 12:31:37

标签: r text imagemagick jpeg tesseract

我正在从某些图像加载文本。对于其中一些,我遇到了问题,with this type of image

library(magick)
library(tesseract)
image_read(fichero.jpg) %>%
  tesseract::ocr(engine = tesseract("eng")) %>%
  cat()

Result

我假设(如果没有,请纠正)由于图像质量低(扫描的文档)而导致tesseract失败,并且我不知道是否有办法使图像更好。

我还尝试了几种带有多个内核的抽风方法,试图减少照片的噪点,但效果更糟。

有没有办法解决这个问题,或者我不得不假设无法在此质量图像中获得文本?

致谢

2 个答案:

答案 0 :(得分:0)

以摄影师而不是程序员的经验来看待这个问题,我猜想对焦不佳和照相机抖动会使大多数OCR选项无法很好地读取该图像。我只是在Adobe Acrobat中使用OCR在自己的PC上玩它,所以我可以识别“ FECHA”,但不能识别“ NUMERO”,也不能识别任何数字。

我将其拉入照片编辑器并弄乱了对比度,因为有时可以将诸如此类的灰度图像转换为纯黑白图像,并消除一些模糊性,但是我做不到在我的快速和肮脏的实验中产生可读的图像。

实际上,您需要以更高的分辨率和更好的对比度扫描/拍摄的图像,以获得可靠的OCR。

答案 1 :(得分:0)

您似乎正在尝试用碎牛肉制成一头母牛。最大的问题是JPEG不适合此类非摄影图像。您的png看起来不错,因为它是无损格式。

如果您不希望出现此问题,请不要将文件另存为JPEG。