如何阅读pdf表内容数据?

时间:2012-08-22 09:00:52

标签: itext

我要求只读取具有表格格式数据的pdf文件,就像在excel文件中一样。我需要提取给定pdf文件的单元格值。 无论如何都可以使用itext API。如果您有什么要分享的话请分享或其他任何解决方案?

2 个答案:

答案 0 :(得分:2)

PDF格式只是一个画布,其中放置的文本和图形没有任何结构信息。因此,PDF文件中没有iText-objects。在每个页面中可能会有一些Strings,但您无法使用这些字符串重建短语或段落。可能会绘制一些线条,但您无法根据这些线条检索Table-object

简而言之:使用iText解析PDF文件的内容不可能

You can try this!这可让您阅读PDF页。

答案 1 :(得分:0)

我最近遇到了这个问题。我无法使用itext工作。

我发现的另一种解决方案是在Adobe中打开PDF文档并将其导出到xml。至少在我的PDF中它保留了表信息,然后我能够以编程方式使用XML来生成表格文件,如excel等。

我遇到的另一个问题是,Adobe只允许您一次导出一个文件,而且我有很多文件。幸运的是Adobe也有一个合并功能。我最终将所有文件合并在一起,然后将它们导出为一个大的XML文件,并使用该文件生成我需要的内容。