我用图像magick将pdf转换为tiff图像, 从500kb到4.6mb文件大小。
问题是tiff图像转换不好的结果。有些文字难以阅读。
这是我在cli中的简单命令
convert \
pph.pdf \
pph-psd.tiff
为什么会发生这种情况以及如何将pdf扫描图像转换为高分辨率tiff,最适合ocr?
答案 0 :(得分:2)
之所以发生这种情况是因为ImageMagick是一个光栅图像处理器,它使用默认的72dpi网格对您的PDF进行光栅化 - 这对您的需求来说太粗糙了。您需要在光栅化之前设置更高的密度:
convert -density 288 input.pdf -compress lzw result.tiff
您可能最好安装Poppler工具并使用其pdfimages
工具来提取图像。
答案 1 :(得分:-1)
如果您需要,可以尝试Coolutils TotalPDFConverter,它对我有用。