我正在从某些图像加载文本。对于其中一些,我遇到了问题,with this type of image
library(magick)
library(tesseract)
image_read(fichero.jpg) %>%
tesseract::ocr(engine = tesseract("eng")) %>%
cat()
我假设(如果没有,请纠正)由于图像质量低(扫描的文档)而导致tesseract失败,并且我不知道是否有办法使图像更好。
我还尝试了几种带有多个内核的抽风方法,试图减少照片的噪点,但效果更糟。
有没有办法解决这个问题,或者我不得不假设无法在此质量图像中获得文本?
致谢
答案 0 :(得分:0)
以摄影师而不是程序员的经验来看待这个问题,我猜想对焦不佳和照相机抖动会使大多数OCR选项无法很好地读取该图像。我只是在Adobe Acrobat中使用OCR在自己的PC上玩它,所以我可以识别“ FECHA”,但不能识别“ NUMERO”,也不能识别任何数字。
我将其拉入照片编辑器并弄乱了对比度,因为有时可以将诸如此类的灰度图像转换为纯黑白图像,并消除一些模糊性,但是我做不到在我的快速和肮脏的实验中产生可读的图像。
实际上,您需要以更高的分辨率和更好的对比度扫描/拍摄的图像,以获得可靠的OCR。
答案 1 :(得分:0)
您似乎正在尝试用碎牛肉制成一头母牛。最大的问题是JPEG不适合此类非摄影图像。您的png看起来不错,因为它是无损格式。
如果您不希望出现此问题,请不要将文件另存为JPEG。