Question

我想从单词docx文件中获取标题h1，h2，其中包含从中获取的页码。例如第1页有标题“标题h1”和“标题h2”，其他页面标题为h1，h2标题。我想用它们取来的页码来获取这些。可以像是

array(
    0 => array( 
       h1 => array('h1 headings goes here'),
       h2 => array('h2 headings goes here...')
       page=>'page number here'))

我可以通过将docx转换为zip并使用DOM Document读取xml来获得标题。但我无法从选择特定标题的位置获取页码。

请分享实现此功能的最佳方式。

Answer 1

我怀疑页面编号是否存储在docx中，因为它不必在打印之前生成。 Word可以在编辑期间显示它是因为它生成它，但不存储它，以便显示。

正如Cindy Meister在对您的问题的评论中提到的那样，如果文档中有一个，您可以从目录（或索引）中获取页面编号。在这种情况下，只需找到与你的h1，h2对应的toc中的行。

但即便如此，在打印文档之前可能不会更新。