如何使用DomDocument解析html中的特殊字符?
例如,如果我想从this维基百科页面获取一个段落,我可以用 -
$dom= new DOMDocument();
$html = file_get_contents("http://en.wikipedia.org/wiki/Aditya");
$dom->loadHTML($html);
$items=$dom->getElementsByTagName('p');
foreach($items as $item){
echo $item->textContent;
break;
}
但在我得到的回复中 -
Ӏdityas 而不是Ādityas,
ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ 而不是आदित्य等等上..
基本上我只是想知道在使用DOMElement提取时如何正确编码这些字符。稍后我会将它们保存在数据库中或仅保存为纯文本。