使用Adobe API提取PDF内容

时间:2015-02-10 19:37:46

标签: java pdf adobe

我正在尝试阅读包含许多表格的PDF文件的内容。将Java与Adobe API结合使用,如果所有单元格都有内容符号,我可以在表格中提取内容。当单元格有多行时,会出现问题,导致提取的内容移动到下一行,从而导致表头不对齐。

有没有什么方法可以从PDF中提取内容,保持表格格式与PDF格式相同?我目前正在使用\ t转义字符来提取数据。

2 个答案:

答案 0 :(得分:1)

一个老问题——但现在有了新答案。 Adobe 将发布全新的 PDF Extract API(目前在 private beta,但预计发布日期为 2021 年 6 月),旨在解决此问题和许多其他问题。我不是 Adob​​e 的啦啦队长,所以我不会在这里抒情;但我们的客户非常满意。

答案 1 :(得分:0)

PDF中的文字未格式化。他们似乎只是格式化。同样,表格只是线条图和文字。您需要一个可以智能地重建页面元素的PDF库。但无论图书馆有多聪明,总会有几行被打破。

以下是我公司制作的PDF PDF库PDFOne的截图。公平地说,可能还有其他库可以做同样的事情。您必须对您的PDF集合进行一些测试,以确定哪一个是好的。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

enter image description here