Tesseract - 识别文本问题

时间:2017-08-08 12:50:54

标签: php ocr tesseract

我在使用Tesseract识别文本时遇到问题,需要一些帮助。

第一个是非常模糊的输入,无法识别:

fuzzytext

第二个输入结果是破碎的结果:

texterrors

返回这个破碎的结果:

“我的曲轴力每次发生燃烧时,曲轴都会向曲轴传递扭矩,因为它会将扭矩传递到轴上。这种变形发生在两个方向上,在轴的侧面沿着沙子扭转扭转的轴。 Thec an-k mum。ran anhafthaft de e ections与einng的操作粗糙度直接相关。当后退时,“

我使用这个PHP命令行调用windows exe,这可能会被修改以提供更好的结果:

getOne

如何为两张图片返回正确的结果?

1 个答案:

答案 0 :(得分:0)

使用ImageMagick和形态学关闭和打开可以改善第一张图像。

convert jrxjek.png -morphology close diamond:1 -morphology open diamond:1 jrxjek_close_open.png

more

使用我的一个bash unix shell脚本和ImageMagick,可以自动检测文本图像中的旋转并对其进行校正/去旋转。

textdeskew crankshaft.png crankshaft_textdeskew.png

enter image description here

enter image description here

上查看我的脚本