用Java中的PDF / A提取文本

时间:2012-05-30 18:55:57

标签: java api pdf apache-tika

是否有可以从PDF / A中提取文本的Java框架?有许多java PDF框架,但如果它们支持该格式,则不指定。

2 个答案:

答案 0 :(得分:1)

您应该查看http://itextpdf.com/(特别是this章节)。它是使用我曾经使用过的Java PDF文件的最佳开源框架。

答案 1 :(得分:1)

Leonard Rosenthol在itext峰会上就PDF标准和格式进行了精彩的演讲。他解释了所有不同的子集。您可以在http://www.parleys.com/#st=5&id=3188&sl=0

在线观看视频

http://lowagie.com/summit2012presentations

列出了所有演示文稿