PDF - 为什么页面没有标准结构元素?

时间:2011-08-25 15:37:00

标签: pdf structure

PDF Spec定义标准结构类型,用于定义文档的结构树。据我所知,没有与页面相关的元素。以下是分组元素的标准结构类型:

Document
Part
Art
Sect
Div
...and so on...

为什么此列表中没有Page项?

如果您希望您的结构使用页面,应该使用什么?部分?教派? DIV?

3 个答案:

答案 0 :(得分:1)

存在PDF标签,以便可以识别元素的内容类型/含义。他们应该考虑PDF的一种“元”信息,只是为文件中的内容提供上下文(以便可以轻松地提取,转换,处理,访问内容等)。把它想象成一本书的目录。仅仅因为这本书有x页并不意味着如果书的页面高度减少一半而内容结构会被改变,那么内容结构就会被改变。

PDF文档结构中的页面对象已经对元素进行了分组(根据给定页面上每个元素的性质),因此在这种结构中这样做会有点多余。

另外,请考虑这种情况:

  • 文档
    • 目录(第1页)
    • 第1部分(从第2页开始到第3页结束)
      1. 子部分(第2页)
      2. 子部分(第3页的一半)
    • 第2节(从第3页开始)

等...

在这个例子中,第1节和第2节不能都是第3页的直接父母(更不用说第1节跨越两个不同的页面)。此外,尝试解决此问题确实没有必要,因为此处分组的元素已经是实际文件格式中各自文档结构的页面节点的子元素。

答案 1 :(得分:0)

PDF规范的附录G给出了演示使用Page对象的示例。

答案 2 :(得分:0)

PDF具有树形结构(允许它如此快速地加载任何页面)。除非您选择使用格式的标记内容功能,然后允许将元数据包含在数据中,否则内容没有任何结构。