pdf是否包含样式,页眉和页脚信息,因为docx文件具有单独的xml文件?
答案 0 :(得分:2)
普通PDF没有样式,但字体不同(例如Helvetica是一种字体,Helvetica-Bold是同一系列的另一种字体)。 它们没有页眉和页脚,就像它们没有段落,节标题,表格行或表格单元格一样。您在PDF页面中看到的所有内容,只是在画布上绘制的一堆字形,路径和形状。
但是:如果您的PDF是标记的PDF ,则PDF包含的内容称为StructTreeRoot
。这意味着,除了内容的呈现之外,您还有一个存储内容语义的树结构。此结构包含对不同页面上的内容的引用,允许您(例如)找出段落中哪些行属于一起,页面的哪些部分是“人工制品”(例如重复的页眉或页脚),哪些内容被组织成一张桌子等......
标记PDF是PDF / A Level A和PDF / UA文档的要求。您可以在野外找到的大多数PDF文件都没有标记(正确)。