按原样获取PDF的文本图层并将其传递给另一个PDF

时间:2014-05-15 18:25:10

标签: pdfbox

下午好,我的项目有问题,这是PDF压缩,过程如下: 从PDF中提取图像 挂OCR 压缩股票 OCR +合并图像并每页转换PDF 将所有生成的pdf与OCR,OCR PDFcon合并为一个最终产品。 我原始文件的大小是11 MB和4.2 MB压缩。 整个过程完美无缺,但我遇到的问题是OCR过程的速度。我正在检查网络,我看到了一种绕过这个过程的方法,即获取原始PDF的文本层并将其传递给最终的PDF压缩,尝试删除PDF的所有图像等一些代码使用文本层,并插入我的压缩图像,但问题与上面提供的正常过程相比,文件的重量增加了超过4.2 MB,这对我来说不方便。 在寻找另一种解决方案时,我发现通过PDFStreamParser,PDStream,COSDictionary使用PDFBox处理的句柄PDF操作符。 操作员是TJ,TW,TZ,TC ......等。 我的问题是,如果有人知道通过TJ操作,这是一个包含PDF的文本到另一个,看看原始PDF的文本层是否可以传递到最终PDF压缩没有我4.2MB高提高重量,想法是不花费其他运营商,因为这些可以增加最终PDF的重量或我错了? 如果您有任何其他解决方案可以帮助我将非常感激?

对不起,如果我的英语不好,如果有人知道西班牙语告诉我更好地表达自己。

感谢

1 个答案:

答案 0 :(得分:2)

您可以使用我们的开源工具pdf2json从您的pdf获取文本图层。如果要从OCR扫描的文档中获取文本,请确保在使用时将“-hidden”作为参数传递给工具。它支持将数据导出为JSON和XML。看看这里:

http://code.google.com/p/pdf2json/