java - Java中的PDF文本提取

时间：2018-07-11 08:04:30

标签： java parsing pdf

我有一个用iText生成并用JasperReports创建的PDF文件（我不知道它是否相关），我想知道是否可以找到一些API或其他东西来查看结构，因为我需要从中提取文本它。

如果可能的话，我需要了解如何创建PDF。我知道使用PDF并不容易，但是我需要从一些有用的东西开始。谢谢！

答案 0 :(得分：0)

还有一个选项，如果您想查看下面的链接，我们也可以从Aspose PDF中提取

答案 1 :(得分：0)

PDFTron PDFGenie可以从PDF文件提取完整的语义表和段落。它可以生成可重排的HTML文件，其中包含表和段落的所有适当的HTML标记。

您可以在此处下载Windows / macOS / Linux PDFGenie命令行工具。 https://www.pdftron.com/downloads/linux