使用pdfminer获取部分的起始页码。

时间:2016-10-05 14:10:25

标签: python nlp

是否有任何方法可以使用pdfminer或任何其他适合python的软件包获取pdf中特定部分的页码。我需要获取pdf索引部分的页码。

1 个答案:

答案 0 :(得分:0)

我知道这是一个老帖子,但我遇到了同样的问题。产生一些有希望的结果的唯一解决方案是:

from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser

def pdf_pages(file):
        parser = PDFParser(open(file, "rb"))
        document = PDFDocument(parser)
        for pages, pdfObjects in enumerate(PDFPage.create_pages(document)):
            print(pages+1, pdfObjects)

希望这有帮助。

由于