我正在尝试根据排序的RegEx来分割庞大的PDF文件
[A-Z] [A-Z] +(\ S- \ S)[A-Z] [A-Z] +
因为在每个实例开始后,我需要将一个新的“部分”拆分为自己的文档。
我不知道从哪里开始,或者首先要看什么语言。
任何帮助都将不胜感激。
答案 0 :(得分:1)
在字节流级别拆分PDF不会产生有效的PDF。
现在我们已经解决了这个问题,你需要一个库(Java中的Apache PDFBox,python中的pyPDF),它可以解析PDF并让你迭代文本,应用你的正则表达式。找到文本后,使用库来提取相关的页面范围。
答案 1 :(得分:1)
答案 2 :(得分:0)
PDF包含多种文件结构,它不仅仅是一个页面集合。所以你不能只是分手。