以编程方式提取Adobe PDF包文件

时间:2009-10-12 20:41:50

标签: pdf adobe

我们组织中有很多文档无意中保存为Adobe PDF packages(也称为PDF 1.7“集合”)。 我们想将这些转换为普通PDF(大多数这些“软件包”包含一个沼泽标准pdf文件),但考虑到文件数量,手动无法实现。

任何Adobe专家都知道:

  1. 有一个开源或免费的库来处理PDF包格式,我可以写一个脚本吗?
  2. Adob​​e Pro 9是否具有相关的脚本化界面,允许我从每个包中提取相关文件?
  3. 或者,我正在研究一种基于宏观的方法,但在调查其他选项之前,我宁愿不去这条路线。

    谢谢!

4 个答案:

答案 0 :(得分:3)

经过一番挖掘后,我找到了pdftk,它在许多平台上作为源和二进制文件分发。

它几乎完成了我们需要做的所有事情,现在我们可以遍历我们的文档,并在每个文档上递归调用pdftk(有些是多级附件链)。

答案 1 :(得分:1)

注意pdftk只会将可见文档的页面分成单个文档。隐藏的文件仍然隐藏着。

您需要使用的选项是unpack_files。

另一种阻止互操作性的不需要的混淆格式因此归类为恶意软件。

答案 2 :(得分:1)

使用Adobe Acrobat Professional将所有内容合并为一个pdf,然后按书签级别进行拆分

答案 3 :(得分:1)

我理解这个帖子已经有几年了但是如果有人正在寻找免费的实用程序来从PDF包中提取文件(特别是从大型集合中),那么请检查免费的实用工具ByteScout PDF Multitool:它是针对500多MB的包测试的文件提取数百个多级链式附件。

免责声明:我隶属于ByteScout