应用错误收集

时间：2015-02-10 19:37:46

标签： java pdf adobe

我正在尝试阅读包含许多表格的PDF文件的内容。将Java与Adobe API结合使用，如果所有单元格都有内容符号，我可以在表格中提取内容。当单元格有多行时，会出现问题，导致提取的内容移动到下一行，从而导致表头不对齐。

有没有什么方法可以从PDF中提取内容，保持表格格式与PDF格式相同？我目前正在使用\ t转义字符来提取数据。

答案 0 :(得分：1)

一个老问题——但现在有了新答案。 Adobe 将发布全新的 PDF Extract API（目前在 private beta，但预计发布日期为 2021 年 6 月），旨在解决此问题和许多其他问题。我不是 Adobe 的啦啦队长，所以我不会在这里抒情；但我们的客户非常满意。

答案 1 :(得分：0)

PDF中的文字未格式化。他们似乎只是格式化。同样，表格只是线条图和文字。您需要一个可以智能地重建页面元素的PDF库。但无论图书馆有多聪明，总会有几行被打破。

以下是我公司制作的PDF PDF库PDFOne的截图。公平地说，可能还有其他库可以做同样的事情。您必须对您的PDF集合进行一些测试，以确定哪一个是好的。

enter image description here