我使用了file_get_contents,curl,简单的html dom但是无法从这个url获取HTML: http://www.zing.vn/news/xa-hoi/choang-voi-clip-cu-ba-cao-tuoi-nhay-boc-nhu-vu-cong/a124040.html
我不知道为什么,但结果是随意的字符,而不是HTML代码。
答案 0 :(得分:4)
该网页似乎总是返回gzip编码的内容(即使客户端声称不支持它)。您可以使用gzinflate
解码gzip压缩内容。
答案 1 :(得分:2)
您需要设置 CURLOPT_ENCODING ,如果为空,curl将处理编码本身,这正是您所需要的:)
我测试了下面的代码并返回正确的字符编码。
$url ="http://www.zing.vn/news/xa-hoi/choang-voi-clip-cu-ba-cao-tuoi-nhay-boc-nhu-vu-cong/a124040.html";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_ENCODING,"");
$pagebody=curl_exec ($ch);
curl_close ($ch);
echo $pagebody;