Question

我尝试使用cURL获取本网站的内容

www.mytischtennis.de/public /

但它没有得到身体反应。对于许多其他网站，代码有效：

<?php


$output = grabPage(
    "http://www.mytischtennis.de/public/"
  //"http://www.spiegel.de" //this page and many other pages are working
);

if (is_array($output)) {
    var_dump($output);
} else {
    echo $output;
}

function grabPage($url)
{
    $ch = curl_init();
    $cookiePath= dirname(__FILE__) . "\cookie.txt";

    curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
    curl_setopt($ch, CURLOPT_MAXREDIRS, 50);
    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
    curl_setopt($ch, CURLOPT_TIMEOUT, 40);
    curl_setopt($ch, CURLOPT_COOKIE, 'CFID=c7a592d8-5798-4471-9af4-4c4d954d03cd; cfid=c7a592d8-5798-4471-9af4-4c4d954d03cd; MYTT_COOKIESOK=1; CFTOKEN0=; cftoken=0; SRV=74');
    curl_setopt($ch, CURLOPT_COOKIEFILE, $cookiePath);
    curl_setopt($ch, CURLOPT_COOKIEJAR, $cookiePath);

    $fpErrors = fopen(dirname(__FILE__) . '\errorlog.txt', 'w');

    curl_setopt($ch, CURLOPT_VERBOSE, 1);
    curl_setopt($ch, CURLOPT_STDERR, $fpErrors);

    curl_setopt($ch, CURLOPT_URL, $url);
    ob_start();
    $curl_exec = curl_exec($ch);
    ob_end_clean();


    if ($curl_exec === false) {
        echo 'Error: ' . curl_error($ch);
    } else {
        echo 'Success';
    }

    var_dump(curl_getinfo($ch));
    curl_close($ch);

    return $curl_exec;
}

我试图读取一个浏览器请求的fiddler / wireshark转储到这个网站。但我无法弄清楚哪些请求以及哪些参数是获取内容所必需的。您也可以在此网站上使用网址www.mytischtennis.de/public/测试cURL： http://onlinecurl.com/

Answer 1

您需要通过在请求中发送相应的HTTP标头来接受响应中的gzip编码：

curl_setopt($ch, CURLOPT_HTTPHEADER, array('Accept-Encoding: gzip'));

现在您从服务器获得的答案可能会也可能不会被gziped。检查的正确方法是解释响应中的Content-Encoding HTTP标头。但你也可以像这样快速而肮脏：

$content = @gzdecode($curl_exec);
return $content !== false ? $content : $curl_exec;

cURL无法获取特定网站的内容

1 个答案: