CURL在命令行中工作,但在PHP脚本中不起作用

时间:2016-11-12 20:58:51

标签: php curl cookies command-line web-scraping

已经问过here,但提问者没有提供足够的相关日志和代码,所以我无法使用它来解决我的问题。在cookie中没有&符号(&),所以肯定不是问题。

因此,我可以使用命令行在命令行中使用curl成功打开一个网页:

curl "https://example.com" -H "cookie: wpfront-notification-bar-landingpage=1; gsScrollPos=; PHPSESSID=qhdkf5id0mnjcjadeuadsfkfp3; _gat=1; arp_scroll_position=877; _drip_client_1350063=vid^%^253D57a7eb508b0f013477ed126e9005972f^%^2526pageViews^%^253D8^%^2526sessionPageCount^%^253D2^%^2526lastVisitedAt^%^253D1478973050670^%^2526weeklySessionCount^%^253D2^%^2526lastSessionAt^%^253D1478972975034^%^2526form^%^255B2550^%^255D^%^255Bauto_open^%^255D^%^253D1478960007^%^2526form^%^255B2550^%^255D^%^255Bmanual_close^%^255D^%^253D1478960015; _ga=GA1.2.660807988.1478959677"

但我的PHP脚本应该完全相同,不起作用。我尝试将cookie添加到标题中并立即添加cookie,但它也是一样的。

function request($url) {
    $ch = curl_init();
    //curl_setopt($ch, CURLOPT_TIMEOUT_MS, 2000);
    curl_setopt_array($ch, array(
        CURLOPT_URL => $url,
        CURLOPT_SSL_VERIFYPEER      =>  0,
        CURLOPT_RETURNTRANSFER      =>  1,
        CURLOPT_CONNECTTIMEOUT      =>  10,
        CURLOPT_TIMEOUT             =>  10,
        CURLOPT_ENCODING            =>  "gzip",
        CURLOPT_FOLLOWLOCATION      =>  TRUE,
        CURLOPT_HEADER              =>  TRUE,
        CURLOPT_USERAGENT           =>  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36",
        CURLOPT_HTTPHEADER          => array("cookie: wpfront-notification-bar-landingpage=1; gsScrollPos=; PHPSESSID=qhdkf5id0mnjcjadeuadsfkfp3; _gat=1; arp_scroll_position=877; _drip_client_1350063=vid^%^253D57a7eb508b0f013477ed126e9005972f^%^2526pageViews^%^253D8^%^2526sessionPageCount^%^253D2^%^2526lastVisitedAt^%^253D1478973050670^%^2526weeklySessionCount^%^253D2^%^2526lastSessionAt^%^253D1478972975034^%^2526form^%^255B2550^%^255D^%^255Bauto_open^%^255D^%^253D1478960007^%^2526form^%^255B2550^%^255D^%^255Bmanual_close^%^255D^%^253D1478960015; _ga=GA1.2.660807988.1478959677"),
        CURLOPT_VERBOSE             => 1,
    ));
    $response = curl_exec($ch);
    $header_size = curl_getinfo($ch, CURLINFO_HEADER_SIZE);
    $http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);
    $header = substr($response, 0, $header_size);
    $html = substr($response, $header_size);

    echo $html;

    libxml_use_internal_errors(TRUE);
    $dom = new DOMDocument();
    if (strpos($url, 'feed') !== false) {
        $dom->loadXML($html);
    } else {
        $dom->loadHtml($html);
    }
    return new DOMXPath($dom);
    libxml_clear_errors(); // to clear memory up
}

request("http://example.com");

如何通过PHP脚本成功运行此curl?为什么它在命令行中工作而在PHP脚本中不起作用?我有什么不对的吗?

任何帮助都将不胜感激。

1 个答案:

答案 0 :(得分:0)

我使用shell_exec()来解决它。

echo shell_exec("curl https://example.com");

似乎卷曲库中存在一个错误,并且该网站的页面中存在错误。这个错误并不一致。有时命令行curl需要cookie,但大部分都不需要。

好吧,我没有时间调试curl,所以如果shell_exec()有效,我也没关系。它甚至变得更加简单。