使用DOMDocument提取特殊字符

时间:2014-06-27 19:08:49

标签: php html-parsing domdocument

如何使用DomDocument解析html中的特殊字符?

例如,如果我想从this维基百科页面获取一个段落,我可以用 -

$dom= new DOMDocument();
$html = file_get_contents("http://en.wikipedia.org/wiki/Aditya");
$dom->loadHTML($html);
$items=$dom->getElementsByTagName('p');
foreach($items as $item){
    echo $item->textContent;
    break;
}

但在我得到的回复中 -

  

Ӏdityas 而不是Ādityas

     

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ 而不是आदित्य等等上..

基本上我只是想知道在使用DOMElement提取时如何正确编码这些字符。稍后我会将它们保存在数据库中或仅保存为纯文本。

0 个答案:

没有答案