应用错误收集

如何使用PDFBox从PDF文件中删除叠加层？

时间：2018-04-25 18:31:55

标签： pdfbox apache-tika

我正在使用Apache Tika 1.17从PDF文件中提取内容。由于Tika无法从该页面中提取任何内容，但在页面上有一个小图像覆盖，但是对于其余页面，它工作正常。有没有办法在发送给Tika之前使用PDFBox从PDF页面中删除叠加层？

作为一种解决方法，我将PDF转换为PNG，而Tika正在使用TesseractOCR来提取内容。但是我这样丢失了一些内容和文本格式。

0 个答案:

没有答案