我正在尝试优化图像扫描pdf的质量/文件大小,同时保持ocr质量。
我可以尝试在高质量pdf文档的ocr之后进行下采样,但与使用photoshop并导出较低的dpi /优化页面并使用这些页面相比,我使用的工具(主要是acrobat)不会创建小文件大小创建一个pdf。
如果可能的话,更好的解决方案是采用已经过ocred的image-pdf文档(当前案例为800M)并将ocr层应用于较低rez的采样文档。
我可以使用pdfminer成功提取坐标为xml的OCR信息,但是我想把它和它应用于使用photoshop进行了下采样的相同文件。我以为我读过这可能是pdftk,但我再也找不到这些信息了。
任何建议都将不胜感激。
杰克