在使用tesseract-OCR提取文本之前,预处理收据图像以识别收据图像中的文本区域

时间:2015-01-08 11:17:50

标签: imagemagick ocr tesseract text-recognition

我使用 ImageMagick 预处理收据图片,然后再使用 tesseract-OCR 引擎提取文字。我使用

删除了图像中的噪点
convert input.png -colorspace gray \
  \( +clone -blur 0x2 \) +swap -compose divide -composite \
  -linear-stretch 5%x0%   photocopy.png

现在,我需要用文本裁剪出该区域。 ImageMagick具有遮罩功能,可以从图像中删除边框,但在我的情况下,由于收据图像的背景不均匀,创建遮罩似乎不起作用。

我已经通过SWT' Stroke Width Transform'识别自然图像中的文本'来自here这可以通过imagemagick(可能是其他方便的开发人员图像处理工具)来识别文本,以便可以省略边框吗?提前谢谢。

0 个答案:

没有答案