从一个pdf导入/嵌入xml ocr / text信息到另一个pdf

时间:2012-07-15 18:31:52

标签: pdf pdf-generation

我正在尝试优化图像扫描pdf的质量/文件大小,同时保持ocr质量。

我可以尝试在高质量pdf文档的ocr之后进行下采样,但与使用photoshop并导出较低的dpi /优化页面并使用这些页面相比,我使用的工具(主要是acrobat)不会创建小文件大小创建一个pdf。

如果可能的话,更好的解决方案是采用已经过ocred的image-pdf文档(当前案例为800M)并将ocr层应用于较低rez的采样文档。

我可以使用pdfminer成功提取坐标为xml的OCR信息,但是我想把它和它应用于使用photoshop进行了下采样的相同文件。我以为我读过这可能是pdftk,但我再也找不到这些信息了。

任何建议都将不胜感激。

杰克

1 个答案:

答案 0 :(得分:0)

您能描述创建PDF的当前方式吗?

使用IText,可以添加set the compression level个图像。

可能有用