cURL在几次请求后停止工作

时间:2014-01-06 20:44:20

标签: php curl

我试图从这个网站建立一些数据,我做了大约50个请求,然后脚本停止工作,我无法弄清楚为什么,也许网站阻止我的IP或什么?

如果我从另一个IP运行脚本,它就可以运行。

如果网站上的数据阻止我,仍然会从网站上抓取数据吗?

这是使用

的卷曲功能
function doMagic($url)
{
  $curl = curl_init();

  $header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
  $header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
  $header[] = "Cache-Control: max-age=0";
  $header[] = "Connection: keep-alive";
  $header[] = "Keep-Alive: 300";
  $header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
  $header[] = "Accept-Language: en-us,en;q=0.5";
  $header[] = "Pragma: ";

  curl_setopt($curl, CURLOPT_URL, $url);
  curl_setopt($curl, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:7.0.1) Gecko/20100101 Firefox/7.0.12011-10-16 20:23:00");
  curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
  curl_setopt($curl, CURLOPT_REFERER, "http://ds-scene.net");
  curl_setopt($curl, CURLOPT_AUTOREFERER, true);
  curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($curl, CURLOPT_TIMEOUT, 30);
  curl_setopt($curl, CURLOPT_FOLLOWLOCATION,true);
  $html = curl_exec($curl);
  echo 'Curl error: '. curl_error($curl);
  curl_close($curl);

  return $html;
}

由于

2 个答案:

答案 0 :(得分:1)

如果您在一定数量的请求后没有得到任何回复,那么它确认他们不喜欢您的任何重复请求。所以你最好不要再打他们(如果你没有权限在他们的网站上运行蜘蛛)。您可以继续绑定新IP(CURLOPT_INTERFACE),或使用代理(CURLOPT_PROXY),或者甚至通过减慢请求数量。但是,它仍然不合法,特别是当你没有这样的许可时。

答案 1 :(得分:0)

我认为它的apache超时会增加脚本的执行时间。 在脚本顶部使用ini_set('max_execution_time', 300); 它对我有用。欢呼声。