如何从pdfminer中的每个文本文件中获取单独的页面?

时间:2018-07-18 17:03:51

标签: python pdf pdfminer

所以问题是这段代码获取了第一个文本文件中的第一页。然后是第二页的前两页,第三页的前三页,依此类推。有没有一种快速的方法来在单独的文本文件中获取pdf文档的每个已处理页面?没有前面的所有页面。

fp = open(path1, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

page_no = 1
for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
    data = retstr.getvalue()

    with open(os.path.join(path2, f'pdf page {page_no}.txt'), 'wb') as file:
        file.write(data.encode('utf-8'))

    page_no += 1

0 个答案:

没有答案