在PHP中,我如何阅读不可靠的网页?

时间:2012-06-22 12:53:32

标签: php curl

我正在尝试在PHP中使用Curl来阅读不可靠的网页。由于服务器错误,页面通常不可用。但是,如果它可用,我仍然需要阅读它。另外,我不希望网页的不可靠性影响我的代码。我希望我的PHP优雅地失败并继续前进。以下是我到目前为止的情况:

<?php
    function get_url_contents($url){
        $crl = curl_init();
        $timeout = 2;
        curl_setopt ($crl, CURLOPT_URL,$url);
        curl_setopt ($crl, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt ($crl, CURLOPT_CONNECTTIMEOUT, $timeout);
        $ret = curl_exec($crl);
        curl_close($crl);
        return $ret;
    }
    $handle = get_url_contents ( 'http://www.mydomain.com/mypage.html' );
?>

2 个答案:

答案 0 :(得分:3)

使用它代替,CURL不再是超级推荐,因为我听说过,因为PHP包装提供了更好的性能,并且随时随地可用:

$currentcontext = stream_context_get_default();
stream_context_set_default(stream_context_create(array('timeout' => 2)));
$content = file_get_contents('url', $context);
stream_context_set_default($currentcontext);

这将在2秒后将默认流上下文设置为超时,并通过流包装器获取URL的内容,该包装应该在5.2及以上版本的所有php版本中存在;

根据您网站的代码,您没有义务恢复默认上下文,但这始终是一件好事。如果不这样做,那么只需2行代码即可实现此操作......

答案 1 :(得分:1)

您可以通过测试HTTP响应代码来测试HTTP代码以查看是否成功检索到该页面。我不记得&gt; 200和&lt; 302是否是正确的代码范围,但在http response codes处有一个快速峰值如果您使用此方法。

<?php
    function get_url_contents($url){
        $crl = curl_init();
        $timeout = 2;
        curl_setopt ($crl, CURLOPT_URL,$url);
        curl_setopt ($crl, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt ($crl, CURLOPT_CONNECTTIMEOUT, $timeout);
        $ret['pagesource'] = curl_exec($crl);
        $httpcode = curl_getinfo($crl, CURLINFO_HTTP_CODE);
        curl_close($crl);

        if($httpcode >=200 && $httpcode<302) {
         $ret['response']=true;
        } else {
         $ret['response']=false;
        }

        return $ret;
    }
    $handle = get_url_contents ( 'http://192.168.1.118/newTest/mainBoss.php' );
    if($handle['response']==false){
          echo 'page is no good';
    } else {
             echo 'page is ok and here it is:' . $handle['pagesource'] . 'DONE.<br>';
    }

?>