为什么file_get_contents返回乱码数据?

时间:2015-08-10 21:12:06

标签: php httpresponse file-get-contents inflate

我试图使用一些简单的php从下面的页面中获取HTML。

网址:https://kat.cr/usearch/architecture%20category%3Abooks/

我的代码是:

getActivity()

其中$html = file_get_contents('https://kat.cr/usearch/architecture%20category%3Abooks/'); echo $html; 有效,但返回加扰数据:

scrambled data via PHP file_get_contents()

我尝试使用file_get_contents以及各种功能,例如:cUrl htmlentities(),mb_convert_encoding等等,但只是获得了加扰文本的不同变体。< / p>

页面的来源显示为utf8_encode,但我不确定问题是什么。

在基本网址charset=utf-8上调用file_get_contents()会返回同样的混乱。

我在这里缺少什么?

2 个答案:

答案 0 :(得分:2)

它是GZ压缩的,当浏览器提取时,浏览器对此进行解压缩,因此您需要解压缩。要输出它,您可以使用readgzfile()

readgzfile('https://kat.cr/usearch/architecture%20category%3Abooks/');

答案 1 :(得分:2)

您的网站响应正在被压缩,因此您必须解压缩才能将其转换为原始表单。

最快捷的方法是使用gzinflate(),如下所示:

$html = gzinflate(substr(file_get_contents("https://kat.cr/usearch/architecture%20category%3Abooks/"), 10, -8));

或者对于更高级的解决方案,请考虑以下功能(在此blog中找到):

function get_url($url)
{
    //user agent is very necessary, otherwise some websites like google.com wont give zipped content
    $opts = array(
        'http'=>array(
            'method'=>"GET",
            'header'=>"Accept-Language: en-US,en;q=0.8rn" .
                        "Accept-Encoding: gzip,deflate,sdchrn" .
                        "Accept-Charset:UTF-8,*;q=0.5rn" .
                        "User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:19.0) Gecko/20100101 Firefox/19.0 FirePHP/0.4rn"
        )
    );

    $context = stream_context_create($opts);
    $content = file_get_contents($url ,false,$context); 

    //If http response header mentions that content is gzipped, then uncompress it
    foreach($http_response_header as $c => $h)
    {
        if(stristr($h, 'content-encoding') and stristr($h, 'gzip'))
        {
            //Now lets uncompress the compressed data
            $content = gzinflate( substr($content,10,-8) );
        }
    }

    return $content;
}

echo get_url('http://www.google.com/');