使用Python识别书签

时间:2015-08-12 13:22:53

标签: python pdf bookmarks

我正在调查PyPDF2,以便从pdf中读取书签。

任何人都可以指出我正确的方向,如何从pdf读取书签,然后拆分pdf基础。我很清楚,一旦我知道如何识别书签,我就可以知道如何拆分。

由于

2 个答案:

答案 0 :(得分:1)

我花了很长时间来弄明白这一点,所以我把答案放在这里,因为它可以帮助别人。

轮廓包含一个嵌套的目的地列表(Definition of Destination Class

您可以使用以下方式获取pdf大纲:

from PyPDF2 import PdfFileReader

reader = PdfFileReader(pdf)
reader.outlines

对于带有子标题的每个标题,父标题位于Destination对象中,后跟子标题列表作为Destination对象列表。

parent_destination
[child_destination1, child_destination2, ......]

如果它没有子标题,那么它将跟随兄弟目的地,而不是列表。

destination1
destination2

每个目的地包含

  • title:标题的文本内容
  • 页面:页码
  • 其他属性

可用于拆分pdf。

希望这有帮助。

答案 1 :(得分:0)

看起来PyPDF2具有您需要的功能。您可能会找到所需内容this post