标签: pdfbox apache-tika
我正在使用Apache Tika 1.17从PDF文件中提取内容。由于Tika无法从该页面中提取任何内容,但在页面上有一个小图像覆盖,但是对于其余页面,它工作正常。 有没有办法在发送给Tika之前使用PDFBox从PDF页面中删除叠加层?
作为一种解决方法,我将PDF转换为PNG,而Tika正在使用TesseractOCR来提取内容。但是我这样丢失了一些内容和文本格式。