应用错误收集

从PDF中提取页眉/页脚（以编程方式）

时间：2013-10-15 09:15:48

标签： python pdf document

是否可以从PDF文档中提取页眉和/或页脚？

当我尝试了一些选项（包括PDFMiner，Ruby gem pdf-extract，研究PDF格式规范）时，我开始怀疑页眉/页脚信息无法使用。

（如果可能的话，我想从Python做到这一点，但任何其他选择都是可行的。）

1 个答案:

答案 0 :(得分：4)

页面页眉和页脚不是（至少不一定）位于与页面内容的其余部分分开的某个内容部分中。因此，通常无法从PDF中可靠地提取页眉和页脚。

但是，可以尝试使用启发式方法来查看整个PDF内容，并尝试猜测哪些部分是页眉和/或页脚。

如果您要分析的PDF是相当同质的，例如所有这些都是由同一出版商制作并且看起来相似，这可能是可行的。但是，您的源PDF文件越多，您的启发式方法可能会越复杂，结果就越不准确。