从提取的PDF文本中删除多余的空格

时间:2017-10-27 11:46:42

标签: php pdf

我从PDF文件中提取了文本,而且某些文字在单词之间有额外的空格。

  

你的水和废水没有

我写了一个函数来从上面的文本中删除多余的空格。

function removeExtraWhitespace($val) {
    $nval = "";

    for($i = 0; $i < strlen($val); $i++) {
        if($val[$i] != " ") {
            $nval .= $val[$i];
        }
        else if((isset($val[$i-2]) && $val[$i-2] != " ") || (isset($val[$i+2]) && $val[$i+2] != " ")) {
            $nval .= $val[$i];
        }
    }
    return $nval;
}

将输出:

  

您的水和废水声明

我知道这个功能在所有情况下都不会起作用。如果文字有一个有效的1个字母的单词,例如&#39; a&#39;,那么它将失败,或者如果只有一个单词的一部分有额外的空格。

  

我要删除字符串中的空格

将上述文本放入我的函数时,它将输出:

  

无法从字符串

中删除空格

有没有办法制作一个可以处理所有可能文本的函数?

1 个答案:

答案 0 :(得分:0)

拼写校正是一项艰苦的工作。我认为您应该使用在线拼写更正网站。您可以执行以下操作:

function curl($post)
{
    $user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; tr; rv:1.9.0.6) Gecko/2009011913 Firefox/3.0.6';
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, 'http://orthographe.reverso.net/RISpellerWS/RestSpeller.svc/v1/CheckSpellingAsXml/language=eng?outputFormat=json&doReplacements=false&interfLang=en&dictionary=both&spellOrigin=interactive&includeSpellCheckUnits=true&includeExtraInfo=true&isStandaloneSpeller=true');
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_POST, true);
    curl_setopt($ch, CURLOPT_POSTFIELDS, $post);
    curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(
        'Created: 01/01/0001 00:00:00',
        'Referer: http://www.reverso.net/spell-checker/english-spelling-grammar/',
        'Username: OnlineSpellerWS'
    ));
    $icerik = curl_exec($ch);
    curl_close($ch);
    return $icerik;
}


$response   = json_decode(curl('Ineed to remove whitespaces froma string'));

var_dump($response->AutoCorrectedText);

这只是出于想法。我确定有提供API的拼写更正网站。