如何使用PDFBox从PDF文件中删除叠加层?

时间:2018-04-25 18:31:55

标签: pdfbox apache-tika

我正在使用Apache Tika 1.17从PDF文件中提取内容。由于Tika无法从该页面中提取任何内容,但在页面上有一个小图像覆盖,但是对于其余页面,它工作正常。 有没有办法在发送给Tika之前使用PDFBox从PDF页面中删除叠加层?

作为一种解决方法,我将PDF转换为PNG,而Tika正在使用TesseractOCR来提取内容。但是我这样丢失了一些内容和文本格式。

0 个答案:

没有答案