应用错误收集

下午好，我的项目有问题，这是PDF压缩，过程如下：从PDF中提取图像挂OCR 压缩股票 OCR +合并图像并每页转换PDF 将所有生成的pdf与OCR，OCR PDFcon合并为一个最终产品。我原始文件的大小是11 MB和4.2 MB压缩。整个过程完美无缺，但我遇到的问题是OCR过程的速度。我正在检查网络，我看到了一种绕过这个过程的方法，即获取原始PDF的文本层并将其传递给最终的PDF压缩，尝试删除PDF的所有图像等一些代码使用文本层，并插入我的压缩图像，但问题与上面提供的正常过程相比，文件的重量增加了超过4.2 MB，这对我来说不方便。在寻找另一种解决方案时，我发现通过PDFStreamParser，PDStream，COSDictionary使用PDFBox处理的句柄PDF操作符。操作员是TJ，TW，TZ，TC ......等。我的问题是，如果有人知道通过TJ操作，这是一个包含PDF的文本到另一个，看看原始PDF的文本层是否可以传递到最终PDF压缩没有我4.2MB高提高重量，想法是不花费其他运营商，因为这些可以增加最终PDF的重量或我错了？如果您有任何其他解决方案可以帮助我将非常感激？

对不起，如果我的英语不好，如果有人知道西班牙语告诉我更好地表达自己。

感谢

按原样获取PDF的文本图层并将其传递给另一个PDF

1 个答案: