为什么无法获取此网址的HTML代码?

时间:2011-08-16 03:11:43

标签: php html get

我使用了file_get_contents,curl,简单的html dom但是无法从这个url获取HTML: http://www.zing.vn/news/xa-hoi/choang-voi-clip-cu-ba-cao-tuoi-nhay-boc-nhu-vu-cong/a124040.html

我不知道为什么,但结果是随意的字符,而不是HTML代码。

2 个答案:

答案 0 :(得分:4)

该网页似乎总是返回gzip编码的内容(即使客户端声称不支持它)。您可以使用gzinflate解码gzip压缩内容。

答案 1 :(得分:2)

您需要设置 CURLOPT_ENCODING ,如果为空,curl将处理编码本身,这正是您所需要的:)

我测试了下面的代码并返回正确的字符编码。

$url ="http://www.zing.vn/news/xa-hoi/choang-voi-clip-cu-ba-cao-tuoi-nhay-boc-nhu-vu-cong/a124040.html";

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_ENCODING,""); 
$pagebody=curl_exec ($ch);
curl_close ($ch);

echo $pagebody;