使用ImageMagick和'textcleaner'清理OCR图像

时间:2015-05-14 20:29:04

标签: imagemagick ocr tesseract imagemagick-convert

我有以下图像,我想准备一个带有tesseract的OCR: enter image description here

目标是清理图像并消除所有噪音。 我正在使用带有以下参数的 textcleaner 脚本使用ImageMagick:

./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg

输出仍然不那么干净: enter image description here

我尝试了参数的各种变化,但没有运气。 有没有人有想法?

1 个答案:

答案 0 :(得分:9)

如果转换为 JPEG 始终 会显示您所看到的工件类型。

这是JPEG压缩的典型“功能”。 JPEG对于显示清晰线条的图像永远不会有好处,与图像的不同区域之间的均匀颜色形成对比,仅使用非常少的颜色。黑白+文本也是如此。 JPEG仅对典型照片“好”,有很多不同的颜色和阴影......

如果您使用 PNG 作为输出格式,您的问题很可能会完全得到解决。下图说明了这一点。我使用与上一个使用的示例命令相同的参数生成它,但使用PNG作为输出格式:

textcleaner -g -e normalize -f 30 -o 12 -s 2 \
    http://i.stack.imgur.com/ficx7.jpg       \
    out.png

PNG instead of JPEG output

以下是对输出的类似缩放:

Zoomed PNG

如果您使用textcleaner脚本的参数,则很可能会进一步提高输出。但那是你的工作......: - )