将PDF转换为具有相同分辨率的PNG - Imagemagick

时间:2016-06-24 18:17:33

标签: file format imagemagick ocr

我有1000张具有多个页面的PDF,每张PDF都有不同的分辨率(基于用于扫描它们的扫描仪)。我想将PDF的每一页转换为PNG,将其传递给Tesseract for OCR。我使用Imagemagick转换为PNG,但必须为所有图像传递固定的DPI才能获得良好的可读输出。有没有办法通过保留PDF的分辨率来转换每个PDF?

例如,如果1.PDF的分辨率为622×788,而2.pdf的分辨率为792×612,那么我希望使用相同的格式进行精确转换(PNG)。

我现在使用的命令是:

convert -monochrome -density 1200 input.pdf -resize 25% -monochrome -white-threshold 50% -black-threshold -50% output.png

谢谢, pashah

1 个答案:

答案 0 :(得分:0)

也许读取第一页的几何图形,然后调整所有页面的大小以匹配?

SIZE=$(identify -format '%g' input.pdf)
convert  -monochrome \
         -density 1200 \
         -resize $SIZE \
         -white-threshold 50% \
         -black-threshold -50% \
         -append \
         output.png