使用PDFminer将多页PDF提取到文本时,如何删除页眉和页脚?

时间:2019-02-21 15:04:04

标签: python header footer text-extraction pdfminer

我已经成功地使用Python中的PDFminer.six从多页PDF中提取了文本,并将其转换为单个字符串,但是我想在将PDF提取为文本时删除每页的页眉和页脚。 / p>

到目前为止,类似的问题还没有给我答案。有删除或提取页眉和页脚的特定功能吗?删除每页的前7行和后7行也可以完成我想的工作。

希望有人可以帮助我。

def pdf_to_text(pdfname):
# PDFMiner boilerplate
rsrcmgr = PDFResourceManager()
sio = StringIO()
device = TextConverter(rsrcmgr, sio, codec='utf-8', laparams=LAParams(char_margin = 20))
interpreter = PDFPageInterpreter(rsrcmgr, device)

# get text from file
fp = open(pdfname, 'rb')
for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
fp.close()
# Get text from StringIO
text = sio.getvalue()

# close objects
device.close()
sio.close()

return text

0 个答案:

没有答案