应用错误收集

在RegEx之后拆分PDF：我应该从哪里开始？

时间：2011-05-18 21:43:11

标签： java php python regex pdf

我正在尝试根据排序的RegEx来分割庞大的PDF文件

[A-Z] [A-Z] +（\ S- \ S）[A-Z] [A-Z] +

因为在每个实例开始后，我需要将一个新的“部分”拆分为自己的文档。

我不知道从哪里开始，或者首先要看什么语言。

任何帮助都将不胜感激。

3 个答案:

答案 0 :(得分：1)

在字节流级别拆分PDF不会产生有效的PDF。

现在我们已经解决了这个问题，你需要一个库（Java中的Apache PDFBox，python中的pyPDF），它可以解析PDF并让你迭代文本，应用你的正则表达式。找到文本后，使用库来提取相关的页面范围。

答案 1 :(得分：1)

也许PDF工具包可以帮助http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

答案 2 :(得分：0)

PDF包含多种文件结构，它不仅仅是一个页面集合。所以你不能只是分手。