是否可以从PDF文档中提取页眉和/或页脚?
当我尝试了一些选项(包括PDFMiner,Ruby gem pdf-extract,研究PDF格式规范)时,我开始怀疑页眉/页脚信息无法使用。
(如果可能的话,我想从Python做到这一点,但任何其他选择都是可行的。)
答案 0 :(得分:4)
页面页眉和页脚不是(至少不一定)位于与页面内容的其余部分分开的某个内容部分中。因此,通常无法从PDF中可靠地提取页眉和页脚。
但是,可以尝试使用启发式方法来查看整个PDF内容,并尝试猜测哪些部分是页眉和/或页脚。
如果您要分析的PDF是相当同质的,例如所有这些都是由同一出版商制作并且看起来相似,这可能是可行的。但是,您的源PDF文件越多,您的启发式方法可能会越复杂,结果就越不准确。