我有一个巨大的pdf文件(20 mb / 800页),其中包含一些信息。
它有索引超链接。此外,大多数剩余信息采用表格格式(pdf格式)。我需要使用Java检索此信息并将其存储在SQL Server中。
哪种API可以从Java中读取此类文件?
答案 0 :(得分:2)
在PDF中不太可能采用表格格式,因为除非在创建时明确添加,否则PDF不包含结构信息。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/
撰写了一篇文章,解释了PDF文本提取的一些问题答案 1 :(得分:1)