Question

我发现this thread很好地描述了我的问题，this回答完全描述了我的问题。

非中断空格字符是字节0xA0是ISO-8859-1;当编码为UTF-8时，它是0xC2,0xA0，如果您（错误地）将其视为ISO-8859-1，则显示为"Â "。这包括一个尾随...

但是，我设法将我的问题追溯到我用来在div中包装图像标签的函数。

function img_format($str)
{
    $doc = new DOMDocument();
    @$doc->loadHTML($str);     // <-- Bonus points for the explaination of the @

    // $tags object
    $tags = $doc->getElementsByTagName('img');

    foreach ($tags as $tag) {

        $div = $doc->createElement('div');
        $div->setAttribute('class','inner-copy');
        $tag->parentNode->insertBefore($div, $tag);
        $div->appendChild($tag);

        $tag->setAttribute('class', 'inner-img');
    }

    $str = $doc->saveHTML();

    return $str;
}

很简单，如何在此功能中修复此问题？

我明白使用;

<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />

将解决这个问题，但显然我在功能本身中忽略了一些东西。

我试过了;

$dom->validateOnParse = true;

无济于事。（我不知道那到底是做什么的）

Answer 1

发现它！

@$doc->loadHTML(mb_convert_encoding($str, 'HTML-ENTITIES', 'UTF-8'));

This answer解释了这个问题并提供了上述工作;

DOMDocument :: loadHTML会将您的字符串视为ISO-8859-1，除非您另有说明。这导致UTF-8字符串被错误地解释。

“Â”字符显示而不是“”

1 个答案: