使用OCR获得更好的结果

时间:2018-05-28 12:05:50

标签: image text imagemagick ocr tesseract

我正在使用tesseract从tiff文件中获取文本,我已经使用textcleaner和来自imagemagick的localtresh处理图像,我将如何进一步提高准确性?

所有内容都必须从终端自动完成,我无法核心任何文件名或任何内容,因为我会将文件上传到表单并进行处理。

现在经过所有处理后我得到了这些结果:

enter image description here

enter image description here

在被tesseract阅读之后不是很准确。 我已经训练了数据用于我正在使用的语言和自定义tessaract params,它有点帮助但不是那么多

使用的终端命令:

convert -verbose -density 400 -trim {$convertpdf} -quality 100 -flatten -sharpen 0x1.0 {$tiff}
/www/textcleaner -l p -g -e normalize -f 42 -o 15 -u -s 1 -T -p 5
/www/localthresh -m 1 -r 25 -b 5 -n yes

0 个答案:

没有答案