我想从单词docx文件中获取标题h1,h2,其中包含从中获取的页码。例如第1页有标题“标题h1”和“标题h2”,其他页面标题为h1,h2标题。我想用它们取来的页码来获取这些。可以像是
array(
0 => array(
h1 => array('h1 headings goes here'),
h2 => array('h2 headings goes here...')
page=>'page number here'))
我可以通过将docx转换为zip并使用DOM Document读取xml来获得标题。但我无法从选择特定标题的位置获取页码。
请分享实现此功能的最佳方式。
答案 0 :(得分:0)
我怀疑页面编号是否存储在docx中,因为它不必在打印之前生成。 Word可以在编辑期间显示它是因为它生成它,但不存储它,以便显示。
正如Cindy Meister在对您的问题的评论中提到的那样,如果文档中有一个,您可以从目录(或索引)中获取页面编号。在这种情况下,只需找到与你的h1,h2对应的toc中的行。
但即便如此,在打印文档之前可能不会更新。