我正在使用tesseract从tiff文件中获取文本,我已经使用textcleaner和来自imagemagick的localtresh处理图像,我将如何进一步提高准确性?
所有内容都必须从终端自动完成,我无法核心任何文件名或任何内容,因为我会将文件上传到表单并进行处理。
现在经过所有处理后我得到了这些结果:
在被tesseract阅读之后不是很准确。 我已经训练了数据用于我正在使用的语言和自定义tessaract params,它有点帮助但不是那么多
使用的终端命令:
convert -verbose -density 400 -trim {$convertpdf} -quality 100 -flatten -sharpen 0x1.0 {$tiff}
/www/textcleaner -l p -g -e normalize -f 42 -o 15 -u -s 1 -T -p 5
/www/localthresh -m 1 -r 25 -b 5 -n yes