应用错误收集

我正在尝试优化图像扫描pdf的质量/文件大小，同时保持ocr质量。

我可以尝试在高质量pdf文档的ocr之后进行下采样，但与使用photoshop并导出较低的dpi /优化页面并使用这些页面相比，我使用的工具（主要是acrobat）不会创建小文件大小创建一个pdf。

如果可能的话，更好的解决方案是采用已经过ocred的image-pdf文档（当前案例为800M）并将ocr层应用于较低rez的采样文档。

我可以使用pdfminer成功提取坐标为xml的OCR信息，但是我想把它和它应用于使用photoshop进行了下采样的相同文件。我以为我读过这可能是pdftk，但我再也找不到这些信息了。

任何建议都将不胜感激。

杰克