我有一些像这样的utf-8 html:
<a href="http://example.com">Today 11:12 AM</a>
而getElementsByTagName('a')->item(0)->nodeValue
会返回此信息:
Today 11:12 AM
我对这个html中的其他节点没有任何问题。
我做错了什么?
答案 0 :(得分:0)
尝试显式设置DOMDocument对象的编码:
$dom = new DOMDocument('1.0', 'UTF-8');
答案 1 :(得分:0)
源文档是ASP和IIS。
我最终将此用于违规字符:
str_replace( chr(), chr(), $html);