由于SSL错误,无法抓取HTML网站

时间:2013-04-07 01:28:01

标签: php curl openssl web-scraping

我正在制作一个抓取脚本。它适用于大多数网站,但我无法访问特定的SSL站点。

这是我的代码:

if (!extension_loaded('openssl')){
    // not occurring
}

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://www.chase.com/');
curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 1);

$result = curl_exec($ch);

if($result === false)
{
    $err = curl_error($ch);
    //$err = SSL read: error:00000000:lib(0):func(0):reason(0), errno 10054
}

$result始终为FALSE,并显示以下错误消息:

SSL read: error:00000000:lib(0):func(0):reason(0), errno 10054

但它适用于其他拥有SSL的网站。我还检查了phpinfo(),cURL和OpenSSL是否有效。我正在使用WAMP,有什么想法吗?

2 个答案:

答案 0 :(得分:2)

您需要设置一个Useragent。我测试了有没有一个,它解决了这个问题。 Chase似乎希望在请求中提供UA。

所以加上这个:

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; MSIE 9.0; WIndows NT 9.0; en-US)'); 

答案 1 :(得分:1)

我只使用以下PHP librery解决了问题。

https://github.com/rmccue/Requests

[在基于Linux的服务器上使用此库代码,可能无法在xampp或wamp上使用]