标签: java api pdf parsing
我想将pdf数据转换为我们自己的文件规范。 所以请帮我选择使用java或.net进行PDF解析的正确API。解析应从PDF页面中提取每个组件(元素)。
答案 0 :(得分:2)
有一个名为IText的库可以满足您的需求。它是那里的第一产品,并且像啤酒一样免费。
之前我曾与IText合作,从PDF中提取内容,虽然它不是超级自动的,但它可以让你获得所有内容。
推荐,换句话说。
答案 1 :(得分:0)
PDF文件中不存在元素。它是一组生成页面的Pdfobjects。
答案 2 :(得分:0)
尝试 PDF格式框http://java-source.net/open-source/pdf-libraries/pdf-box
希望它会有所帮助。