Question

我有一份扫描文件，我想用Tesseract从中获取文字。

以下是我的PDF质量示例：

正如您所看到的“维护”，“c”上方有一个小点。 Tesseract使用以下命令将此单词翻译成：“mafintenanée”：

tesseract 1.pdf final -l eng --oem 2
tesseract 1.pdf final -l eng --oem 1
tesseract 1.pdf final -l eng

我买不起这种检测，所以我试图用imagemagick来改进我的PDF。

我已经尝试了以下所有命令：

convert 1.pdf -resize 400% outResize400.tif
convert 1.pdf -quality 100 out.tif
convert 1.pdf -quality 100 outquality100.tif
convert 1.pdf  -background white backgroundwhite.tif
convert 1.pdf -density 200x200 density200x200.tif
convert 1.pdf -density 200x200 density200.jpg
convert 1.pdf -antialias antialias.tif
convert 1.pdf  -background white -density 800 backgroundwhitewithdensity800.tif
convert 1.pdf -density 400% density400percent.tif

我得到它的最佳结果之一：

正如您所见，使用imageMagick完全破坏了文本。

您是否知道我应该使用哪些设置来改善我的结果？

Answer 1

按照Vico的要求：

在读取PDF等矢量文件之前，通常需要指定-density XXX。通常，人们可以做到

convert -density 288 1.pdf -resize 25% 1.tiff

标称密度为72 dpi，因此288 = 4 * 72,25％为1/4。因此，这将以高密度读取此PDF，然后调整回输入大小。如果您想要更大的字符，那么要么将密度更改为更大的字符，要么删除-resize。如果扫描不干净，那么我们需要查看实际的PDF以建议进一步处理，这可能取决于分配的密度。

为Tesseract准备PDF时的文本质量

1 个答案: