我正在建立一个在线门户网站,研究人员可以上传他们的研究论文。一个要求是,所有PDF都以PDF / A格式存储。由于我无法依赖用户生成符合PDF / A的文档,因此我需要一种工具来检查标准PDF并将其转换为PDF / A格式。
您知道的最佳工具是什么?
首选开源工具,但搜索没有发现。 iText可以创建PDF / a,但转换并不容易,因为您必须阅读每个页面并将其复制到新文档,在此过程中丢失所有书签和注释。 (至少据我所知,如果你知道一个简单的解决方案,请告诉我。)
API应该可用于PHP,Java或应提供命令行工具。请不要列出仅限GUI或仅限在线的解决方案。
答案 0 :(得分:8)
我不确定您的所有目标是否可以同时满足。围绕PDF / A的故事要比格式转换复杂得多,比如tiff到png。
总而言之:我认为您最好放弃部分或全部责任以遵守PDF的制作人。当然,这并不意味着你无法帮助他们:如果你找出大多数用来创建论文的工具,你可以指向PDF / A和特定工具的文档。 (作为此类文档的一个极端示例,请查看this)
祝你好运。
答案 1 :(得分:8)
我曾经在法国国家图书馆工作,建立一个可以做这种事情的档案系统。作为世界上前十大图书馆中的大多数,我们使用JHOVE来识别文件格式。
JHOVE 可以判断文件是否为PDF / A,甚至可以验证。它还知道其他7种PDF,请参阅the details。
JHOVE是开源的,由JSTOR和哈佛大学图书馆维护。这对use来说相当简单。
答案 2 :(得分:3)
对于识别部分,您可以尝试Droid tool(数字记录对象识别),它可以访问Pronom technical registry(包含PDF/A)。
答案 3 :(得分:1)
Open Office API project可能就是你要找的东西。截至2.4 Open Office支持PDF / a文档。这是来自网站的code example如何转换文档,这个例子是Java。
答案 4 :(得分:-1)
我不确定PDF /文件,但你看过jodconverter? 它可以为您转换许多不同的格式,它是开源的。我们在项目中广泛使用它。