我有以下图像,我想准备一个带有tesseract的OCR:
目标是清理图像并消除所有噪音。
我正在使用带有以下参数的 textcleaner
脚本使用ImageMagick:
./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg
输出仍然不那么干净:
我尝试了参数的各种变化,但没有运气。 有没有人有想法?
答案 0 :(得分:9)
如果转换为 JPEG , 始终 会显示您所看到的工件类型。
这是JPEG压缩的典型“功能”。 JPEG对于显示清晰线条的图像永远不会有好处,与图像的不同区域之间的均匀颜色形成对比,仅使用非常少的颜色。黑白+文本也是如此。 JPEG仅对典型照片“好”,有很多不同的颜色和阴影......
如果您使用 PNG 作为输出格式,您的问题很可能会完全得到解决。下图说明了这一点。我使用与上一个使用的示例命令相同的参数生成它,但使用PNG作为输出格式:
textcleaner -g -e normalize -f 30 -o 12 -s 2 \
http://i.stack.imgur.com/ficx7.jpg \
out.png
以下是对输出的类似缩放:
如果您使用textcleaner脚本的参数,则很可能会进一步提高输出。但那是你的工作......: - )