我正在尝试阅读包含许多表格的PDF文件的内容。将Java与Adobe API结合使用,如果所有单元格都有内容符号,我可以在表格中提取内容。当单元格有多行时,会出现问题,导致提取的内容移动到下一行,从而导致表头不对齐。
有没有什么方法可以从PDF中提取内容,保持表格格式与PDF格式相同?我目前正在使用\ t转义字符来提取数据。
答案 0 :(得分:1)
一个老问题——但现在有了新答案。 Adobe 将发布全新的 PDF Extract API(目前在 private beta,但预计发布日期为 2021 年 6 月),旨在解决此问题和许多其他问题。我不是 Adobe 的啦啦队长,所以我不会在这里抒情;但我们的客户非常满意。
答案 1 :(得分:0)
PDF中的文字未格式化。他们似乎只是格式化。同样,表格只是线条图和文字。您需要一个可以智能地重建页面元素的PDF库。但无论图书馆有多聪明,总会有几行被打破。
以下是我公司制作的PDF PDF库PDFOne的截图。公平地说,可能还有其他库可以做同样的事情。您必须对您的PDF集合进行一些测试,以确定哪一个是好的。