PDF文档操作

时间:2009-04-08 15:47:59

标签: pdf pdf-manipulation

我有几个包含以下属性的PDF:

每张PDF都包含可变数量的“文档”,页面数量不同。

“文档”中的每个页面都有“第3页,共26页”等文本。

我希望能够自动识别PDF中每个“文档”的第一页和最后一页(注意:这与PDF的第一页和最后一页不同,因为每个PDF可能包含多个“文档” )并将这些提取到一个新的PDF中,以便以后打印和存档。

我不确定我可以使用哪些工具来解决这个问题以及可以使用哪些库来解决这个问题。

有什么建议吗?最好是免费的,可以用来创建一个可以在Windows上运行的工具。

3 个答案:

答案 0 :(得分:1)

Java有一个很好的免费pdf库。查看iText

来自iText的网站:

您可以使用iText:

  • 将PDF投放到浏览器
  • 从XML文件或数据库生成动态文档
  • 使用PDF的许多互动功能
  • 添加书签,页码,水印等
  • 拆分,连接和操作PDF页面
  • 自动填写PDF表格
  • 将数字签名添加到PDF文件
  • 还有更多......

由于它是Java,因此在Windows或其他任何地方都不会出现问题。

答案 1 :(得分:0)

您可以尝试使用pdftk解压缩PDF,解析数据,拆分数据,然后重新压缩。

答案 2 :(得分:0)

我设法想出一个可行的unix hack:

  • 使用pdftk解压缩并分解为单独的页面
  • 使用pdftotext将每个页面转换为文本
  • 编写脚本以识别txt中的相应字符串,并将相应的pdf复制到子目录[进行中]
  • 找到一些工具重组[待调查,可能是pdftk可以做到]

应该在我的unix平台上工作,但不确定是否可以将所有这些工具带到Windows环境中。

一种可能性是使用电子邮件网关接收pdf并返回已处理的pdf,这使得它更加难看。

任何拥有原生win32解决方案的人?