我基于PDFparser设置了一个脚本。它对我来说适用于大多数PDF类型。我能够以与PDF相同的格式输出文本
$text .= nl2br($page->getText());
现在,我需要弄清楚如何删除页眉和页脚。据我有限的研究了解,这些在PDF中并没有以任何不同的方式标记。我假设,如果我具有相同的文档类型,则可以找出某种模式并添加一个正则表达式。
以下是我正在使用的测试文件的链接:https://docdro.id/NyFyxJq
通常如何进行?有人可以用PdfParser做到这一点吗?