我正在尝试列出20,000多个域名并检查它们是否“活着”。我真正需要的是一个简单的http代码检查,但我无法弄清楚如何使用curl_multi。在我正在使用的单独脚本上,我有以下函数,它同时检查一批1000个域并返回json响应代码。也许这可以修改为只获取http响应代码而不是页面内容?
(对不起语法我无法将其粘贴为一个很好的代码块,而不是一行一行地添加4个空格......(也尝试跳过一行并添加8个空格)
$ dotNetRequests =域名数组......
//loop through arrays
foreach(array_chunk($dotNetRequests, 1000) as $Netrequests) {
$results = checkDomains($Netrequests);
$NetcurlRequest = array_merge($NetcurlRequest, $results);
}
function checkDomains($data) {
// array of curl handles
$curly = array();
// data to be returned
$result = array();
// multi handle
$mh = curl_multi_init();
// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {
$curly[$id] = curl_init();
$url = (is_array($d) && !empty($d['url'])) ? $d['url'] : $d;
curl_setopt($curly[$id], CURLOPT_URL, $url);
curl_setopt($curly[$id], CURLOPT_HEADER, 0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);
// post?
if (is_array($d)) {
if (!empty($d['post'])) {
curl_setopt($curly[$id], CURLOPT_POST, 1);
curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d['post']);
}
}
curl_multi_add_handle($mh, $curly[$id]);
}
// execute the handles
$running = null;
do {
curl_multi_exec($mh, $running);
} while($running > 0);
// get content and remove handles
foreach($curly as $id => $c) {
// $result[$id] = curl_multi_getcontent($c);
// if($result[$id]) {
if (curl_multi_getcontent($c)){
//echo "yes";
$netName = $data[$id];
$dName = str_replace(".net", ".com", $netName);
$query = "Update table1 SET dotnet = '1' WHERE Domain = '$dName'";
mysql_query($query);
}
curl_multi_remove_handle($mh, $c);
}
// all done
curl_multi_close($mh);
return $result;
}
答案 0 :(得分:1)
在任何其他语言中,你都可以进行这种操作......
https://github.com/krakjoe/pthreads
你也可以在PHP中使用:)
我会建议一些工人而不是20,000个单独的线程......不是20,000个线程超出可能性范围 - 它不是......但这不会很好地利用资源,我会像现在这样做,有20名工人得到每个1000个域的结果...我假设你不需要我给出一个获得响应代码的例子,我肯定卷曲会给你,但它是使用curl可能有点过分,因为你不需要它的线程功能:我会fsockopen端口80,fprintf GET HTTP / 1.0 / \ n \ n,fgets第一行并关闭连接...如果你将要成为一直这样做,然后我也会使用Connection:close,这样接收机器就不需要连接了......
答案 1 :(得分:0)
此脚本非常适合使用PHP处理批量同时cURL请求。 我可以在几分钟内使用它解析50k域名!