image - 使用OCR获得更好的结果

我正在使用tesseract从tiff文件中获取文本，我已经使用textcleaner和来自imagemagick的localtresh处理图像，我将如何进一步提高准确性？

所有内容都必须从终端自动完成，我无法核心任何文件名或任何内容，因为我会将文件上传到表单并进行处理。

现在经过所有处理后我得到了这些结果：

在被tesseract阅读之后不是很准确。我已经训练了数据用于我正在使用的语言和自定义tessaract params，它有点帮助但不是那么多

使用的终端命令：

convert -verbose -density 400 -trim {$convertpdf} -quality 100 -flatten -sharpen 0x1.0 {$tiff}
/www/textcleaner -l p -g -e normalize -f 42 -o 15 -u -s 1 -T -p 5
/www/localthresh -m 1 -r 25 -b 5 -n yes

使用OCR获得更好的结果

0 个答案: