从Word文档页面明智地获取文本

时间:2019-01-23 09:21:49

标签: php ms-word

我正在律师网站上工作。我要管理系统中上传的文档。我想在php数组中明智地获取文档页面的内容。

 $array = [
       [0] => 'Page 1 Content',
       [1] => 'Page 2 Content',
       [2] => 'Page 3 Content',
    ];

我尝试了以下操作,但没有获得数组输出

<?php
    include_once("DocxConversion.php");

    $docObj = new DocxConversion("sample.docx");
    $docText = $docObj->convertToText(0);

    echo "<pre>"; print_r($docText);
?>

它将文档的所有文本显示为文本而不是数组。任何帮助将不胜感激。预先感谢。

1 个答案:

答案 0 :(得分:1)

这是不可能的,因为Word不会为不包含“硬分页符”的内容保存分页信息。 (在Word应用程序中打开文档时,几乎不可能逐页获取内容-对象模型甚至没有Page对象。)

如果需要按页面获取信息,则应将文档保存为PDF格式,其中页面是静态的,信息保存在文件中。

Word是文字处理器。与页面布局软件不同,内容不会分配给“页面对象”。当在Word中打开和编辑文档时,Word应用程序会动态布局文本字符流。动态自动布局有很多因素:打印机,打印机驱动程序,字体特征等。这意味着在其他机器上打开文档时,最佳布局可能会有所不同。因此,分页(和换行)信息不会保存在文档中。