下午好,我的项目有问题,这是PDF压缩,过程如下:从PDF中提取图像挂起OCR压缩库存OCR +合并图像并每页转换PDF将所有生成的pdf与OCR结合使用,OCR PDFcon作为最终产品。我原始文件的大小是11 MB和4.2 MB压缩。整个过程完美无缺,但我遇到的问题是OCR过程的速度。我正在检查网络,我看到了一种绕过这个过程的方法,即获取原始PDF的文本层并将其传递给最终的PDF压缩,尝试删除PDF的所有图像等一些代码使用文本层,并插入我的压缩图像,但问题与上面提供的正常过程相比,文件的重量增加了超过4.2 MB,这对我来说不方便。在寻找另一种解决方案时,我发现通过PDFStreamParser,PDStream,COSDictionary使用PDFBox处理的句柄PDF操作符。操作员是TJ,TW,TZ,TC ......等。我的问题是,如果有人知道通过TJ操作,这是一个包含PDF的文本到另一个,看看原始PDF的文本层是否可以传递到最终PDF压缩没有我4.2MB高提高重量,想法是不花费其他运营商,因为这些可以增加最终PDF的重量或我错了?如果您有任何其他解决方案可以帮助我将非常感激?
对不起,如果我的英语不好,如果有人知道西班牙语告诉我更好地表达自己。
我使用的语言是Java。感谢