阅读pdf电子书的内容并相应地拆分pdf文件

时间:2016-11-08 14:45:11

标签: java python pdf

我有一些巨大的技术pdf电子书,我想以一种帮助我从每本书中找到和读取我想要的部分的方式拆分它们。我在谈论索引的pdf文件,内容(部分和章节)。我根据pdf的内容提出了以下分割方案:

1。阅读书籍内容。  2.为整本书创建根文件夹  3.为书的每个部分创建一个子文件夹  4.每章将书分成一个pdf文件,并将pdfs(章节)放在相应的子文件夹(部分)中。

如何使用Java或Python pdf库完成此操作?

1 个答案:

答案 0 :(得分:0)

您可以使用PyPDF2来阅读和拆分PDF文件。

以下是导出PDF页面的方法:

import PyPDF2

def export_pdf_pages(input_pdf_path, page_first, page_last, output_pdf_path):
    with open(input_pdf_path, "rb") as input_stream:
        input_pdf = PyPDF2.PdfFileReader(input_stream)
        output = PyPDF2.PdfFileWriter()
        for index in xrange(page_first - 1, page_last):
            try:
                page = input_pdf.getPage(index)
            except IndexError:
                fmt = 'Missing page {page_num} in "{input_pdf_path}"'
                msg = fmt.format(page_num=index + 1, input_pdf_path=input_pdf_path)
                raise IndexError(msg)
            output.addPage(page)
        with open(output_pdf_path, "wb") as output_stream:
            output.write(output_stream)