使用Smalot \ PdfParser从文本输出中删除页眉/页脚

时间:2019-05-26 22:10:40

标签: php pdf-parsing pdfparser

我基于PDFparser设置了一个脚本。它对我来说适用于大多数PDF类型。我能够以与PDF相同的格式输出文本

$text .= nl2br($page->getText());

现在,我需要弄清楚如何删除页眉和页脚。据我有限的研究了解,这些在PDF中并没有以任何不同的方式标记。我假设,如果我具有相同的文档类型,则可以找出某种模式并添加一个正则表达式。

以下是我正在使用的测试文件的链接:https://docdro.id/NyFyxJq

通常如何进行?有人可以用PdfParser做到这一点吗?

0 个答案:

没有答案