如何从多个PDF中删除第一页

时间:2012-10-22 20:37:12

标签: pdf

我有一个PDF集合,有时会有一个我要删除的文档第一页的信息页面。

如果有一种快速方法可以从我的所有pdf中删除此信息页面,或者至少可以显示所有包含多个页面的pdf,那么我可以更好地找到需要修复的页面?

你知道任何可以做到这一点的程序吗?或者用python做到这一点?

注意:信息页面上有文字,它始终保持相同的“LAND TITLE OFFICE”

使用Windows 7操作系统

由于

一些研究发现了以下内容:

http://www.python.org/workshops/2002-02/papers/17/index.htm

http://www.unixuser.org/~euske/python/pdfminer/index.html

http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html#pyPdf.pdf.PdfFileWriter-class

2 个答案:

答案 0 :(得分:5)

您可以使用opensource PDFBox作为命令行实用程序来拆分PDF。

PDFBox的链接位于:link

使用PDFBox拆分PDF的文档位于:link

您可以使用批处理脚本中的PDFBox提取文本功能,并与grep结合使用以识别包含您要查找的文本的页面。提取文本文档位于:link

答案 1 :(得分:5)

您可以尝试以下两种方式:

  • PdfTK是一个操作PDF的实用程序。检查这个link,他们正在做一些类似于你需要的东西(在评论中有人也发布了一个Windows脚本)

  • PDFsam是一个图形化的强大工具,可以批量处理PDF。拆分+合并部分应该可以解决问题。

他们两个都是免费的,如果你想写一个"配方"我建议先学习第一个。您可以经常使用,但后者如果必须这样做一次。