应用错误收集

如何使用DomDocument解析html中的特殊字符？

例如，如果我想从this维基百科页面获取一个段落，我可以用 -

$dom= new DOMDocument();
$html = file_get_contents("http://en.wikipedia.org/wiki/Aditya");
$dom->loadHTML($html);
$items=$dom->getElementsByTagName('p');
foreach($items as $item){
    echo $item->textContent;
    break;
}

但在我得到的回复中 -

Ã“Â€dityas 而不是Ādityas，

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ 而不是आदित्य等等上..

基本上我只是想知道在使用DOMElement提取时如何正确编码这些字符。稍后我会将它们保存在数据库中或仅保存为纯文本。

使用DOMDocument提取特殊字符

0 个答案: