我有一份扫描文件,我想用Tesseract从中获取文字。
以下是我的PDF质量示例:
正如您所看到的“维护”,“c”上方有一个小点。 Tesseract使用以下命令将此单词翻译成:“mafintenanée”:
tesseract 1.pdf final -l eng --oem 2
tesseract 1.pdf final -l eng --oem 1
tesseract 1.pdf final -l eng
我买不起这种检测,所以我试图用imagemagick来改进我的PDF。
我已经尝试了以下所有命令:
convert 1.pdf -resize 400% outResize400.tif
convert 1.pdf -quality 100 out.tif
convert 1.pdf -quality 100 outquality100.tif
convert 1.pdf -background white backgroundwhite.tif
convert 1.pdf -density 200x200 density200x200.tif
convert 1.pdf -density 200x200 density200.jpg
convert 1.pdf -antialias antialias.tif
convert 1.pdf -background white -density 800 backgroundwhitewithdensity800.tif
convert 1.pdf -density 400% density400percent.tif
我得到它的最佳结果之一:
正如您所见,使用imageMagick完全破坏了文本。
您是否知道我应该使用哪些设置来改善我的结果?
答案 0 :(得分:0)
按照Vico的要求:
在读取PDF等矢量文件之前,通常需要指定-density XXX。通常,人们可以做到
convert -density 288 1.pdf -resize 25% 1.tiff
标称密度为72 dpi,因此288 = 4 * 72,25%为1/4。因此,这将以高密度读取此PDF,然后调整回输入大小。如果您想要更大的字符,那么要么将密度更改为更大的字符,要么删除-resize。如果扫描不干净,那么我们需要查看实际的PDF以建议进一步处理,这可能取决于分配的密度。