在RegEx之后拆分PDF:我应该从哪里开始?

时间:2011-05-18 21:43:11

标签: java php python regex pdf

我正在尝试根据排序的RegEx来分割庞大的PDF文件

[A-Z] [A-Z] +(\ S- \ S)[A-Z] [A-Z] +

因为在每个实例开始后,我需要将一个新的“部分”拆分为自己的文档。

我不知道从哪里开始,或者首先要看什么语言。

任何帮助都将不胜感激。

3 个答案:

答案 0 :(得分:1)

在字节流级别拆分PDF不会产生有效的PDF。

现在我们已经解决了这个问题,你需要一个库(Java中的Apache PDFBox,python中的pyPDF),它可以解析PDF并让你迭代文本,应用你的正则表达式。找到文本后,使用库来提取相关的页面范围。

答案 1 :(得分:1)

答案 2 :(得分:0)

PDF包含多种文件结构,它不仅仅是一个页面集合。所以你不能只是分手。