我正在尝试获取某些远程站点的html内容。我使用以下PHP脚本,但此脚本的输出充满了不可读的字符。我不知道为什么它应该像这样。仅供参考,我正在使用最新的Chrome浏览器进行测试。
脚本:
<?php
$url = "http://www.sandesh.com/article.aspx?newsid=115627";
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$output = curl_exec($curl);
curl_close($curl);
//echo $output;
$DOM = new DOMDocument;
@$DOM->loadHTML($output);
//get all H1
$items = $DOM -> getElementById('lblNews');
echo $DOM -> getElementById('lblNews')->tagName;
echo "<!DOCTYPE HTML PUBLIC '-//W3C//DTD HTML 4.01 Transitional//EN'
'http://www.w3.org/TR/html4/loose.dtd'><html xmlns='http://www.w3.org/1999/xhtml'><head><meta http-equiv='Content-Type' content='text/html; charset=utf-8' /></head><body><span>". $items -> nodeValue ."</span". "<br/></body></html>";
//display all H1 text
/*
for ($i = 0; $i < $items -> length; $i++) {
echo $items -> item($i) -> nodeValue . "<br/>";
}*/
?>
输出:
span à ª¨à ªµà «€ à ª¦à ª¿à ª²à «Âà ª¹à «€, à ª¤à ª¾. à «¨à «¨ à ªÂà «Âà ª°à ª·à «Âà ªŸà ª¾à ªšà ª¾à ª°à ª¨à ª¾ à ª†à ª°à «‹à ªªà «‹ à ª…à ª¨à «‡ à ªªà ª•à «Âà ª·à ª®à ª¾à ª‚ à ªÂà ª¾à ª°à «‡ à ªµà ª¿à ª°à «‹à ª§à ª¨à «‡ à ªªà ª—à ª²à «‡ à ª°à ª¾à ªœà «€à ª¨à ª¾à ª®à «Âà ª‚ à ª†à ªªà «Âà ª¯à «Âà ª‚ à ªªà ª•à «Âà ª·à ªªà «Âà ª°à ª®à «Âà ª–à ª¨à «€ à ªšà «‚à ª‚à ªŸà ª£à «€ à ªªà «‚à ª°à «Âà ªµà «‡à ª¨à «€ à ª¬à «‡à ª à ª•à ª®à ª¾à ª‚ à ª¹à ª¾à ªˆà ª¡à «Âà ª°à ª¾à ª®à ª¾ à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦ à ª®à ª¾à ªŸà «‡ à ª°à ª¾à ªœà ª¨à ª¾à ª¥à ª¸à ª¿à ª‚à ª¹à ª¨à ª¾à ª‚ à ª¨à ª¾à ª® à ªªà ª° à ª¸à ª°à «Âà ªµà ª¸à ª‚à ª®à ª¤à ª¿ à ª¹à «‹à ªµà ª¾à ª¨à «€ à ªšà ª°à «Âà ªšà ª¾ à ª¸à ª‚à ª˜à ª¨à «‡ à ªªà ª£ à ªµà ª¾à ª‚à ª§à «‹ à ª¨à ª¥à «€, à ª¨à ª¿à ª°à «Âà ªµà ª¿à ª°à «‹à ª§ à ªšà «‚à ª‚à ªŸà ª¾à ªˆ à ª¶à ª•à «‡ à ª›à «‡ à ª†à ªœà «‡ à ªÂà ª¾à ªœà ªªà ª¨à «€ à ª¸à ª‚à ª¸à ª¦à «€à ª¯ à ª¸à ª®à ª¿à ª¤à ª¿à ª¨à «€ à ª¬à «‡à ª à ª• à ªÂà ª¾à ªœà ªªà ª¨à ª¾ à ª°à ª¾à ª·à «Âà ªŸà «Âà ª°à «€à ª¯ à ª…à ª§à «Âà ª¯à ª•à «Âà ª· à ª¨à «€à ª¤à ª¿à ª¨ à ª—à ª¡à ª•à ª°à «€à ª à ª®à ª‚à ª—à ª³à ªµà ª¾à ª°à «‡ à ª°à ª¾à ª¤à «Âà ª°à «‡ à ª¨à ª¾à ªŸà ª•à «€à ª¯ à ª…à ª‚à ª¦à ª¾à ªœà ª®à ª¾à ª‚ à ªªà ª•à «Âà ª·à ª¨à ª¾ à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦à «‡à ª¥à «€ à ª°à ª¾à ªœà «€à ª¨à ª¾à ª®à «Âà ª‚ à ª†à ªªà «Âà ª¯à «Âà ª‚ à ª¹à ª¤à «Âà ª‚. à ªªà ª•à «Âà ª·à ª¨à ª¾ à ªµà ª°à ª¿à ª·à «Âà ª à ª¨à «‡à ª¤à ª¾ à ª²à ª¾à ª²à ª•à «ƒà ª·à «Âà ª£ à ª…à ª¡à ªµà ª¾à ª£à «€ à ª…à ª¨à «‡ à ªÂà «ˆà ª¯à ª¾à ªœà «€ à ªœà «‹à ª¶à «€ à ª¸à ª¾à ª¥à «‡à ª¨à «€ à ª¬à «‡à ª à ª•à ª¨à ª¾ à ª•à «‡à ªŸà ª²à ª¾à ª• à ª•à ª²à ª¾à ª• à ª¬à ª¾à ª¦ à ªœ à ª—à ª¡à ª•à ª°à «€à ª à ª°à ª¾à ªœà «€à ª¨à ª¾à ª®à ª¾à ª¨à «€ à ªœà ª¾à ª¹à «‡à ª°à ª¾à ª¤ à ª•à ª°à «€ à ª¹à ª¤à «€. à ª—à ª¡à ª•à ª°à «€à ª¨à ª¾à ª‚ à ª°à ª¾à ªœà «€à ª¨à ª¾à ª®à ª¾ à ª¬à ª¾à ª¦ à ªªà ª•à «Âà ª·à ª¨à ª¾ à ª‰à ª¤à «Âà ª¤à ª°à ªªà «Âà ª°à ª¦à «‡à ª¶à ª¨à ª¾ à ª¸à ª¾à ª‚à ª¸à ª¦ à ª°à ª¾à ªœà ª¨à ª¾à ª¥à ª¸à ª¿à ª‚à ª¹ à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦à ª¨à «€ à ª¹à ª°à «€à ª«à ª¾à ªˆà ª®à ª¾à ª‚ à ª¸à «Œà ª¥à «€ à ª†à ª—à ª³ à ª›à «‡. à ª°à ª¾à ª·à «Âà ªŸà «Âà ª°à «€à ª¯ à ª¸à «Âà ªµà ª¯à ª‚à ª¸à «‡à ªµà ª• à ª¸à ª‚à ª˜ (à ª†à ª°à ªÂà ª¸à ªÂà ª¸)à ª à ªªà ª£ à ª°à ª¾à ªœà ª¨à ª¾à ª¥à ª¸à ª¿à ª‚à ª¹à ª¨à ª¾à ª‚ à ª¨à ª¾à ª® à ªªà ª° à ª¸à ª‚à ª®à ª¤à ª¿ à ª†à ªªà «€ à ª¹à «‹à ªµà ª¾à ª¨à «Âà ª‚ à ª¸à «‚à ª¤à «Âà ª°à «‹à ª à ªœà ª£à ª¾à ªµà «Âà ª¯à «Âà ª‚ à ª›à «‡, à ªœà «‹à ª•à «‡ à ª¨à ªµà ª¾ à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ª¨à «€ à ª°à «‡à ª¸à ª®à ª¾à ª‚ à ªµà «‡à ª‚à ª•à «ˆà ª¯à ª¾ à ª¨à ª¾à ª¯à ª¡à «Âà ª¨à «Âà ª‚ à ª¨à ª¾à ª® à ªªà ª£ à ªšà ª°à «Âà ªšà ª¾à ªˆ à ª°à ª¹à «Âà ª¯à «Âà ª‚ à ª›à «‡. à ªœà «‹à ª•à «‡ à ª¬à «Âà ª§à ªµà ª¾à ª°à «‡ à ª¸à ªµà ª¾à ª°à «‡ à ªªà ª•à «Âà ª·à ª¨à «€ à ª¸à ª‚à ª¸à ª¦à «€à ª¯ à ª¸à ª®à ª¿à ª¤à ª¿à ª¨à «‡ à ª¬à «‡à ª à ª•à ª®à ª¾à ª‚ à ª°à ª¾à ªœà ª¨à ª¾à ª¥à ª¸à ª¿à ª‚à ª¹à ª¨à ª¾ à ª¨à ª¾à ª®à ª¨à «€ à ª¸à ª¤à «Âà ª¤à ª¾à ªµà ª¾à ª° à ªœà ª¾à ª¹à «‡à ª°à ª¾à ª¤ à ª¥à ªˆ à ª¶à ª•à «‡ à ª›à «‡ à ª¤à «‡à ª® à ª¸à «‚à ª¤à «Âà ª°à «‹ à ªœà ª£à ª¾à ªµà «‡ à ª›à «‡. à ª¬à «€à ªœà «€ à ª¤à ª°à ª« à ªªà ª•à «Âà ª·à ª¨à ª¾ à ªµà ª°à ª¿à ª·à «Âà ª à ª¨à «‡à ª¤à ª¾ à ª¯à ª¶à ªµà ª‚à ª¤ à ª¸à ª¿à ª‚à ª¹à ª¾à ª à ªªà ª£ à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦ à ª®à ª¾à ªŸà «‡à ª¨à «Âà ª‚ à ª¨à ª¾à ª®à ª¾à ª‚à ª•à ª¨à ªªà ª¤à «Âà ª° à ª®à ª‚à ª—à ª¾à ªµà «Âà ª¯à «Âà ª‚ à ª¹à ª¤à «Âà ª‚. à ªœà «‹à ª•à «‡ à ª°à ª¾à ªœà ª¨à ª¾à ª¥à ª¸à ª¿à ª‚à ª¹à ª¨à ª¾ à ª¨à ª¾à ª® à ªªà ª° à ª¸à ª°à «Âà ªµà ª¸à ª‚à ª®à ª¤à «Âà ª¤à ª¿ à ª¸à ª§à ª¾à ª¤à ª¾ à ª¯à ª¶à ªµà ª‚à ª¤ à ª¸à ª¿à ª‚à ª¹à ª¾ à ª¹à ªµà «‡ à ª¨à ª¾à ª®à ª¾à ª‚à ª•à ª¨à ªªà ª¤à «Âà ª° à ª¨à ª¹à «€à ª‚ à ªÂà ª°à «‡. à ª—à ª¡à ª•à ª°à «€ à ªµà ª¿à ª°à «Âà ª¦à «Âà ª§ à ªµà ª¾à ª¤à ª¾à ªµà ª°à ª£ à ª¬à ª¨à ªµà ª¾à ª¨à «‹ à ª˜à ªŸà ª¨à ª¾à ª•à «Âà ª°à ª® à «§.        à ª¶à ª¨à ª¿à ªµà ª¾à ª°à «‡ à ª²à ª¾à ª²à ª•à «ƒà ª·à «Âà ª£ à ª…à ª¡à ªµà ª¾à ª£à «€à ª à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦à «‡ à ª«à ª°à «€ à ªµà ª¾à ª° à ª—à ª¡à ª•à ª°à «€à ª¨à «‡ à ª¬à ª¦à ª²à «‡ à ª¸à «Âà ª·à «Âà ª®à ª¾ à ª¸à «Âà ªµà ª°à ª¾à ªœà ª¨à ª¾à ª‚ à ª¨à ª¾à ª®à ª¨à «‡ à ª†à ª—à ª³ à ª•à ª°à «Âà ª¯à «Âà ª‚ à ª¹à ª¤à «Âà ª‚ à «¨.        à ª®à ª‚à ª—à ª³à ªµà ª¾à ª°à «‡ à ª†à ª‡à ªŸà «€à ª à ª—à ª¡à ª•à ª°à «€à ª¨à ª¾ à ªªà «‚à ª°à «Âà ª¤à ª¿ à ª—à «Âà ª°à «‚à ªª à ª¸à ª¾à ª¥à «‡ à ª¸à ª‚à ª•à ª³à ª¾à ª¯à «‡à ª²à «€ à ª•à ª‚à ªªà ª¨à «€à ª“à ª¨à «€ à ª¤à ªªà ª¾à ª¸ à ª¹à ª¾à ª¥ à ª§à ª°à «€ à ª¹à ª¤à «€ à «©.        à ª®à ª‚à ª—à ª³à ªµà ª¾à ª°à «‡ à ª¯à ª¶à ªµà ª‚à ª¤ à ª¸à ª¿à ª‚à ª¹à ª¾à ª à ªªà ª£ à ª¨à ª¾à ª®à ª¾à ª‚à ª•à ª¨à ªªà ª¤à «Âà ª° à ª®à ª—à ª¾à ªµà ª¤à ª¾ à ª—à ª¡à ª•à ª°à «€à ª¨à «€ à ª®à «Âà ª¶à «Âà ª•à «‡à ª²à «€à ª“ à ªµà ª§à «€ à ª¹à ª¤à «€, à ª…à ª¡à ªµà ª¾à ª£à «€à ª à ª¸à ª¿à ª¨à «Âà ª¹à ª¾à ª¨à «Âà ª‚ à ª¨à ª¾à ª® à ª†à ª—à ª³ à ª•à ª°à «Âà ª¯à «Âà ª‚ à ª¹à ª¤à «Âà ª‚ à «ª.        à ª°à ª¾à ªœà «Âà ª¯à ª¸à ªÂà ª¾à ª®à ª¾à ª‚ à ªªà ª•à «Âà ª·à ª¨à ª¾ à ª¨à «‡à ª¤à ª¾ à ª…à ª°à «Âà ª£ à ªœà «‡à ªŸà ª²à «€à ª¨à ª¾ à ª˜à ª°à «‡ à ª¬à «‡à ª à ª• à ª¹à ª¤à «€ à ««.        à ª—à ª¡à ª•à ª°à «€à ª à ª¨à ª¾à ª—à ªªà «Âà ª°à ª®à ª¾à ª‚ à ªªà ª¹à «‡à ª²à «€ à ª«à «‡à ª¬à «Âà ª°à «Âà ª†à ª°à «€à ª à ª†à ª‡à ªŸà «€ à ª¸à ª®à ª•à «Âà ª· à ª¹à ª¾à ªœà ª° à ªªà ª£ à ª¥à ªµà ª¾à ª¨à «Âà ª‚ à ª›à «‡, à ªœà «Âà ª¯à ª¾à ª°à «‡ à «¨à «©à ª®à «€ à ªœà ª¾à ª¨à «Âà ª¯à «Âà ª†à ª°à «€à ª à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦à ª¨à «€ à ªšà «‚à ª‚à ªŸà ª£à «€ à ª›à «‡.  à ª®à «‡à ª‚ à ªÂà «Âà ª°à ª·à «Âà ªŸà ª¾à ªšà ª¾à ª°à ª¨à ª¾ à ª†à ª°à «‹à ªªà «‹à ª¥à «€ à ª•à ª‚à ªŸà ª¾à ª³à «€à ª¨à «‡ à ª°à ª¾à ªœà «€à ª¨à ª¾à ª®à «Âà ª‚ à ª†à ªªà «Âà ª¯à «Âà ª‚ à ª›à «‡. à ªªà ª•à «Âà ª·à ª¨à ª¾à ª‚ à ª…à ª§à «Âà ª¯à ª•à «Âà ª·à ªªà ª¦ à ª®à ª¾à ªŸà «‡ à ª¸à ª‚à ª˜ à ª®à ª¾à ª°à ª¾ à ª¨à ª¾à ª®à ª¨à «‹ à ªªà «Âà ª°à ª¸à «Âà ª¤à ª¾à ªµ à ª¨ à ª®à «‚à ª•à «‡. à ª¹à «Âà ª‚ à ª•à «Âà ª²à «€à ª¨à ªšà ª¿à ªŸ à ª®à ª³à ª¶à «‡ à ªªà ª›à «€ à ªªà ª¾à ª›à «‹ à ª«à ª°à «€à ª¶. à ª®à ª¾à ª°à «€ à ª¸à ª¾à ª®à «‡ à ª•à «‡à ª¨à «Âà ª¦à «Âà ª° à ª¸à ª°à ª•à ª¾à ª°à «‡ à ª°à ª¾à ªœà ª•à «€à ª¯ à ª·à ª¡à «Âà ª¯à ª‚à ª¤à «Âà ª° à ª°à ªšà «Âà ª¯à «Âà ª‚ à ª›à «‡. à ª®à «‡à ª‚ à ª•à ª¶à «Âà ª‚ à ª–à «‹à ªŸà «Âà ª‚ à ª•à ª°à «Âà ª¯à «Âà ª‚ à ª¨à ª¥à «€, à ª¹à «Âà ª‚ à ª•à «‹à ªˆ à ªªà ª£ à ªªà «Âà ª°à ª•à ª¾à ª°à ª¨à «€ à ª¤à ªªà ª¾à ª¸ à ª®à ª¾à ªŸà «‡ à ª¤à «ˆà ª¯à ª¾à ª° à ª›à «Âà ª‚, à ªªà ª£ à ªªà ª¾à ª°à «Âà ªŸà «€ à ª¹à ª¿à ª¤à ª¨à «‡ à ª¨à «Âà ª•à ª¸à ª¾à ª¨ à ªªà ª¹à «‹à ª‚à ªšà ª¾à ª¡à ªµà ª¾ à ª®à ª¾à ª—à ª¤à «‹ à ª¨à ª¥à «€.  - à ª¨à «€à ª¤à ª¿à ª¨ à ª—à ª¡à ª•à ª°à «€
效果添加元标记后的内容类型:
预期输出的PasteBin:
与没有第一个跨度的这个pastebin链接类似,因为我们想要内部的内容。 http://pastebin.com/0fefAnhC
答案 0 :(得分:2)
我认为您的问题是您需要将此文档声明为UTF-8文档。
将<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
添加到您的<head> </head>
。
修改后的代码:
$url = "http://www.sandesh.com/article.aspx?newsid=115627";
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$output = curl_exec($curl);
curl_close($curl);
//echo $output;
$DOM = new DOMDocument;
$output = mb_convert_encoding($output, 'HTML-ENTITIES', "UTF-8");
@$DOM->loadHTML('<?xml encoding="UTF-8">'.$output);
$doc->encoding = 'UTF-8'; // insert proper
//get all H1
$items = $DOM -> getElementById('lblNews');
echo $DOM -> getElementById('lblNews')->tagName;
echo "<!DOCTYPE HTML PUBLIC '-//W3C//DTD HTML 4.01 Transitional//EN'
'http://www.w3.org/TR/html4/loose.dtd'><html xmlns='http://www.w3.org/1999/xhtml'><head></head><body><span>". $items -> nodeValue ."</span". "<br/></body></html>";