我正在律师网站上工作。我要管理系统中上传的文档。我想在php数组中明智地获取文档页面的内容。
$array = [
[0] => 'Page 1 Content',
[1] => 'Page 2 Content',
[2] => 'Page 3 Content',
];
我尝试了以下操作,但没有获得数组输出
<?php
include_once("DocxConversion.php");
$docObj = new DocxConversion("sample.docx");
$docText = $docObj->convertToText(0);
echo "<pre>"; print_r($docText);
?>
它将文档的所有文本显示为文本而不是数组。任何帮助将不胜感激。预先感谢。
答案 0 :(得分:1)
这是不可能的,因为Word不会为不包含“硬分页符”的内容保存分页信息。 (在Word应用程序中打开文档时,几乎不可能逐页获取内容-对象模型甚至没有Page对象。)
如果需要按页面获取信息,则应将文档保存为PDF格式,其中页面是静态的,信息保存在文件中。
Word是文字处理器。与页面布局软件不同,内容不会分配给“页面对象”。当在Word中打开和编辑文档时,Word应用程序会动态布局文本字符流。动态自动布局有很多因素:打印机,打印机驱动程序,字体特征等。这意味着在其他机器上打开文档时,最佳布局可能会有所不同。因此,分页(和换行)信息不会保存在文档中。