我们正在使用ImageMagic和tesseract尝试读取文档中的信息,但我们没有找到正确的配置和两种软件的组合来优化原始扫描的tif文档,并应用tesseract来获取信息。
首先,我们使用300 dpi配置扫描扫描文档,tif文档产生170KB大小的用途。
然后我们尝试使用imagemagic运行图像的预处理,然后将其传递给tesseract 3.0.3,以生成带有文本文档的PDF。
我们使用的第一个命令就是这个:
convert page.tiff -respect-parenthesis -compress LZW -density 300
-bordercolor black -border 1 -fuzz 1% -trim +repage -fill white -draw
"color 0,0 floodfill" -alpha off -shave 1x1 -bordercolor black -border 2
-fill white -draw "color 0,0 floodfill" -alpha off -shave 0x1 -fuzz 1%
-deskew 40 +repage temp.tiff
然后我们将它应用于这种方式:
tesseract -l spa temp.tiff temp pdf
这会产生一个非常重的pdf https://drive.google.com/open?id=0B3CPIZ_TyzFXd2UtWldfajR4SVU,但如果标题的背景较暗,则tesseract无法读取单元格中的数据,也无法读取表格标题下的表格。
然后我们尝试将此命令与convert:
一起使用convert page.tiff -compress LZW -fuzz 1% -trim -alpha off -shave 1x1 temp.tiff
这会产生一个非常简单的pdf文档https://drive.google.com/open?id=0B3CPIZ_TyzFXWFEwT3JucDBTVVU,但我们仍然遇到同样的问题。
有人能指出我们应该采用什么方式来优化图像以尝试获取示例中的信息?或优化图像的指南,以提高tesseract准确性?
我们尝试处理的文档类型因字体类型和大小的不同而有很大差异
答案 0 :(得分:0)
如果在基于Unix的系统上,您可以在http://www.fmwconcepts.com/imagemagick/index.php
尝试我的脚本textcleaner