如何准确地使用php从word文件中获取文本?

时间:2017-05-16 08:49:10

标签: php

我使用doc2txt.class.php类使用php从word文件中获取txt,我正在使用以下代码

require("doc2txt.class.php");
$docObj = new Doc2Txt("test.docx");
$txt = $docObj->convertToText();

我的word文件包含以下文字

MWONGOZO WA MAOMBI MAALUMU (MAOMBI YA HATARI).
Huu ni Mfano Tu, Jinsi Ya Kuomba Na Maeneo Ya Kuombea! Unatakiwa pamoja na KUWA NA BIDII, KUMTEGEMEA SANA ROHO MTAKATIFU NI MUHIMU SANA!
MAOMBI MAALUMU YA JINSI YA KUPAMBANA KATIKA VITA VYA KIROHO
Jinsi Ya Kuomba Maombi Haya

但是我得到的输出与我的输出有点不同

MWONGOZO WA MAOMBI MAALUMU (MAOMBI YA HATARI).Huu ni Mfano Tu, Jinsi Ya Kuomba Na Maeneo Ya Kuombea! Unatakiwa pamoja na KUWA NA BIDII, KUMTEGEMEA SANA ROHO MTAKATIFU NI MUHIMU SANA! MAOMBI MAALUMU YA JINSI YA KUPAMBANA KATIKA VITA VYA KIROHOJinsi Ya Kuomba Maombi Haya 

你可以看到输出包含这个单词KIROHO Jinsi作为单词KIROHOJinsi 所以,当我计算单词的数量时,它会给出45个单词,但实际上却存在 是46个字。

有什么方法可以解决这个问题吗?

1 个答案:

答案 0 :(得分:1)

我已检查此代码的txt文件,它工作正常。我想这可能会对你有所帮助。谢谢

$myfile = file_get_contents("test.txt");

    $array = explode("\n", $myfile);

    $count = null;
    if (!empty($array))
    {
        $i = 0;
        foreach ($array as $rowarray)
        {

            $a1 = array_filter(explode(" ", trim($rowarray)));
            $count = $count + count($a1);
        }
        echo $count;
    }