Java中的PDF文本提取

时间:2018-07-11 08:04:30

标签: java parsing pdf

我有一个用iText生成并用JasperReports创建的PDF文件(我不知道它是否相关),我想知道是否可以找到一些API或其他东西来查看结构,因为我需要从中提取文本它。

  • 我尝试使用iTextPDFBox和其他Java库,但是我只能逐行获取文本,并且这不是我所需要的
  • 我也尝试了HTML,XML,DOM的转换,但是在提取文本时得到了相同的结果,没有解析任何结构。
  • 如果我尝试以DOCX格式打开它,我会发现Word可以识别某种结构,例如在PDF中看起来像表格的区域,在DOCX中转换后,它实际上是表格。

如果可能的话,我需要了解如何创建PDF。我知道使用PDF并不容易,但是我需要从一些有用的东西开始。谢谢!

2 个答案:

答案 0 :(得分:0)

还有一个选项,如果您想查看下面的链接,我们也可以从Aspose PDF中提取

https://blog.aspose.com/2018/02/28/extract-text-by-paragraphs-and-convert-files-to-pdf-with-aspose.pdf/

答案 1 :(得分:0)

PDFTron PDFGenie可以从PDF文件提取完整的语义表和段落。它可以生成可重排的HTML文件,其中包含表和段落的所有适当的HTML标记。

有关更多详细信息,请参见此博客。 https://www.pdftron.com/blog/parsing-extraction/table-extraction-and-pdf-to-xml-with-pdfgenie/#a-idpart7aevaluating-accuracy-of-pdf-table-recognition

您可以在此处下载Windows / macOS / Linux PDFGenie命令行工具。 https://www.pdftron.com/downloads/linux