cURL Mult同时请求(域检查)

时间:2012-09-20 15:19:36

标签: php curl

我正在尝试列出20,000多个域名并检查它们是否“活着”。我真正需要的是一个简单的http代码检查,但我无法弄清楚如何使用curl_multi。在我正在使用的单独脚本上,我有以下函数,它同时检查一批1000个域并返回json响应代码。也许这可以修改为只获取http响应代码而不是页面内容?

(对不起语法我无法将其粘贴为一个很好的代码块,而不是一行一行地添加4个空格......(也尝试跳过一行并添加8个空格)

$ dotNetRequests =域名数组......

//loop through arrays
foreach(array_chunk($dotNetRequests, 1000) as $Netrequests) {
    $results = checkDomains($Netrequests);
    $NetcurlRequest = array_merge($NetcurlRequest, $results);
}

function checkDomains($data) {

// array of curl handles
$curly = array();
// data to be returned
$result = array();

// multi handle
$mh = curl_multi_init();

// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {

$curly[$id] = curl_init();

$url = (is_array($d) && !empty($d['url'])) ? $d['url'] : $d;
curl_setopt($curly[$id], CURLOPT_URL,            $url);
curl_setopt($curly[$id], CURLOPT_HEADER,         0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);

// post?
if (is_array($d)) {
  if (!empty($d['post'])) {
    curl_setopt($curly[$id], CURLOPT_POST,       1);
    curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d['post']);
  }
}

curl_multi_add_handle($mh, $curly[$id]);
  }

  // execute the handles
  $running = null;
  do {
    curl_multi_exec($mh, $running);
  } while($running > 0);

  // get content and remove handles
  foreach($curly as $id => $c) {
     // $result[$id] = curl_multi_getcontent($c);
// if($result[$id]) {
if (curl_multi_getcontent($c)){
    //echo "yes";
    $netName = $data[$id];
    $dName = str_replace(".net", ".com", $netName);
    $query = "Update table1 SET dotnet = '1' WHERE Domain = '$dName'";
    mysql_query($query);
}
curl_multi_remove_handle($mh, $c); 
}

// all done
 curl_multi_close($mh);

return $result;
} 

2 个答案:

答案 0 :(得分:1)

在任何其他语言中,你都可以进行这种操作......

https://github.com/krakjoe/pthreads

你也可以在PHP中使用:)

我会建议一些工人而不是20,000个单独的线程......不是20,000个线程超出可能性范围 - 它不是......但这不会很好地利用资源,我会像现在这样做,有20名工人得到每个1000个域的结果...我假设你不需要我给出一个获得响应代码的例子,我肯定卷曲会给你,但它是使用curl可能有点过分,因为你不需要它的线程功能:我会fsockopen端口80,fprintf GET HTTP / 1.0 / \ n \ n,fgets第一行并关闭连接...如果你将要成为一直这样做,然后我也会使用Connection:close,这样接收机器就不需要连接了......

答案 1 :(得分:0)

此脚本非常适合使用PHP处理批量同时cURL请求。 我可以在几分钟内使用它解析50k域名!

https://github.com/petewarden/ParallelCurl/