我已经成功地使用Python中的PDFminer.six从多页PDF中提取了文本,并将其转换为单个字符串,但是我想在将PDF提取为文本时删除每页的页眉和页脚。 / p>
到目前为止,类似的问题还没有给我答案。有删除或提取页眉和页脚的特定功能吗?删除每页的前7行和后7行也可以完成我想的工作。
希望有人可以帮助我。
def pdf_to_text(pdfname):
# PDFMiner boilerplate
rsrcmgr = PDFResourceManager()
sio = StringIO()
device = TextConverter(rsrcmgr, sio, codec='utf-8', laparams=LAParams(char_margin = 20))
interpreter = PDFPageInterpreter(rsrcmgr, device)
# get text from file
fp = open(pdfname, 'rb')
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
fp.close()
# Get text from StringIO
text = sio.getvalue()
# close objects
device.close()
sio.close()
return text