我要求只读取具有表格格式数据的pdf文件,就像在excel文件中一样。我需要提取给定pdf文件的单元格值。 无论如何都可以使用itext API。如果您有什么要分享的话请分享或其他任何解决方案?
答案 0 :(得分:2)
PDF
格式只是一个画布,其中放置的文本和图形没有任何结构信息。因此,PDF文件中没有iText-objects
。在每个页面中可能会有一些Strings
,但您无法使用这些字符串重建短语或段落。可能会绘制一些线条,但您无法根据这些线条检索Table-object
。
简而言之:使用iText
解析PDF文件的内容不可能。
You can try this!这可让您阅读PDF
页。
答案 1 :(得分:0)
我最近遇到了这个问题。我无法使用itext工作。
我发现的另一种解决方案是在Adobe中打开PDF文档并将其导出到xml。至少在我的PDF中它保留了表信息,然后我能够以编程方式使用XML来生成表格文件,如excel等。
我遇到的另一个问题是,Adobe只允许您一次导出一个文件,而且我有很多文件。幸运的是Adobe也有一个合并功能。我最终将所有文件合并在一起,然后将它们导出为一个大的XML文件,并使用该文件生成我需要的内容。