Question

我运行以下代码：

$page = '<p>Ä</p>';
$DOM = new DOMDocument;
$DOM->loadHTML($page);
echo 'source:'.$page;
echo 'dom: '.$DOM->getElementsByTagName('p')->item (0)->textContent;

并输出以下内容：

来源：Ä

dom：Ã

所以，我不明白为什么当文本通过DOMDocument时它的编码被破坏了？

Answer 1

这是一种通过元标题添加正确编码的解决方法：

$DOM->loadHTML('<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />' . $page);

我不确定这是否是您尝试使用的实际字符集，但在必要时进行调整

另请参阅：domdocument character set issue

Answer 2

DOMDocument似乎将输入视为UTF-8。在此次转化中，Ä变为Ã„。这是问题：第二个字符在ISO-8859-1中不存在，但确实存在于Windows-1252中。这就是你在输出中看不到第二个字符的原因。

您可以通过在utf8_decode的输出上调用textContent，或使用UTF-8作为页面的字符编码来解决此问题。

DOMDocument打破编码？

2 个答案: