转换为PDF / A并检查Linux下的合规性

时间:2009-01-21 09:14:43

标签: java php linux pdf pdfa

我正在建立一个在线门户网站,研究人员可以上传他们的研究论文。一个要求是,所有PDF都以PDF / A格式存储。由于我无法依赖用户生成符合PDF / A的文档,因此我需要一种工具来检查标准PDF并将其转换为PDF / A格式。

您知道的最佳工具是什么?

  • 价格
  • 质量
  • 速度
  • 可用的API

首选开源工具,但搜索没有发现。 iText可以创建PDF / a,但转换并不容易,因为您必须阅读每个页面并将其复制到新文档,在此过程中丢失所有书签和注释。 (至少据我所知,如果你知道一个简单的解决方案,请告诉我。)

API应该可用于PHP,Java或应提供命令行工具。请不要列出仅限GUI或仅限在线的解决方案。

5 个答案:

答案 0 :(得分:8)

我不确定您的所有目标是否可以同时满足。围绕PDF / A的故事要比格式转换复杂得多,比如tiff到png。

  • 基本格式是PDF 1.4:如何处理使用更高版本功能的更高版本的文档?信息可能会丢失。
  • 在PDF / A-1a和1b中,XMP / RDF格式的元数据是强制性的。如果原始文档没有元数据,则必须从某处获取并添加它。至少iText可以做到这一点。
  • 有许多小细节可以解决,从嵌入字体到确保存在空间而不是仅存在水平移动命令。

总而言之:我认为您最好放弃部分或全部责任以遵守PDF的制作人。当然,这并不意味着你无法帮助他们:如果你找出大多数用来创建论文的工具,你可以指向PDF / A和特定工具的文档。 (作为此类文档的一个极端示例,请查看this

祝你好运。

答案 1 :(得分:8)

我曾经在法国国家图书馆工作,建立一个可以做这种事情的档案系统。作为世界上前十大图书馆中的大多数,我们使用JHOVE来识别文件格式。

JHOVE 可以判断文件是否为PDF / A,甚至可以验证。它还知道其他7种PDF,请参阅the details

JHOVE是开源的,由JSTOR和哈佛大学图书馆维护。这对use来说相当简单。

答案 2 :(得分:3)

对于识别部分,您可以尝试Droid tool(数字记录对象识别),它可以访问Pronom technical registry(包含PDF/A)。

答案 3 :(得分:1)

Open Office API project可能就是你要找的东西。截至2.4 Open Office支持PDF / a文档。这是来自网站的code example如何转换文档,这个例子是Java。

答案 4 :(得分:-1)

我不确定PDF /文件,但你看过jodconverter? 它可以为您转换许多不同的格式,它是开源的。我们在项目中广泛使用它。

http://www.artofsolving.com/opensource/jodconverter