带有nodeValue的php getElementsByTagName返回恶意字符

时间:2012-04-06 19:18:26

标签: php getelementsbytagname nodevalue

我有一些像这样的utf-8 html:

<a href="http://example.com">Today&nbsp;11:12&nbsp;AM</a>

getElementsByTagName('a')->item(0)->nodeValue会返回此信息:

Today 11:12 AM

我对这个html中的其他节点没有任何问题。

我做错了什么?

2 个答案:

答案 0 :(得分:0)

尝试显式设置DOMDocument对象的编码:

$dom = new DOMDocument('1.0', 'UTF-8');

答案 1 :(得分:0)

源文档是ASP和IIS。

我最终将此用于违规字符:

str_replace( chr(), chr(), $html);