使用tika-server

时间:2015-08-07 17:13:49

标签: java parsing pdf pdfbox apache-tika

我可以使用pdfbox获取所有图像并从pdf获取坐标。 但是当我使用tika服务器解析pdf时,我只得到了文本。那么我怎么知道图像何时出现,以便我可以将图像准确地放在该文本之后。 我正在使用以下第一个答案中给出的代码: extract images from pdf using pdfbox

我正在使用tika服务器1.7我正在解析解析器中的pdf数据并使用纯文本版本。我只是想在解析时知道,我将如何知道遇到图像。

我在此链接https://tika.apache.org/1.10/examples.html使用praseToHTML()获取了HTML输出 但这仍然没有给我pdf中的图像。也没有提供任何标签。

0 个答案:

没有答案