为Tesseract准备PDF时的文本质量

时间:2017-07-17 15:41:14

标签: pdf imagemagick tesseract

我有一份扫描文件,我想用Tesseract从中获取文字。

以下是我的PDF质量示例:

enter image description here

正如您所看到的“维护”,“c”上方有一个小点。 Tesseract使用以下命令将此单词翻译成:“mafintenanée”:

tesseract 1.pdf final -l eng --oem 2
tesseract 1.pdf final -l eng --oem 1
tesseract 1.pdf final -l eng 

我买不起这种检测,所以我试图用imagemagick来改进我的PDF。

我已经尝试了以下所有命令:

convert 1.pdf -resize 400% outResize400.tif
convert 1.pdf -quality 100 out.tif
convert 1.pdf -quality 100 outquality100.tif
convert 1.pdf  -background white backgroundwhite.tif
convert 1.pdf -density 200x200 density200x200.tif
convert 1.pdf -density 200x200 density200.jpg
convert 1.pdf -antialias antialias.tif
convert 1.pdf  -background white -density 800 backgroundwhitewithdensity800.tif
convert 1.pdf -density 400% density400percent.tif

我得到它的最佳结果之一:

enter image description here

正如您所见,使用imageMagick完全破坏了文本。

您是否知道我应该使用哪些设置来改善我的结果?

1 个答案:

答案 0 :(得分:0)

按照Vico的要求:

在读取PDF等矢量文件之前,通常需要指定-density XXX。通常,人们可以做到

convert -density 288 1.pdf -resize 25% 1.tiff

标称密度为72 dpi,因此288 = 4 * 72,25%为1/4。因此,这将以高密度读取此PDF,然后调整回输入大小。如果您想要更大的字符,那么要么将密度更改为更大的字符,要么删除-resize。如果扫描不干净,那么我们需要查看实际的PDF以建议进一步处理,这可能取决于分配的密度。