我正在尝试使用curl进行某种多任务处理。卷发的任务是在几个4兆字节的文件中查找字符串。当我为每个文件委派一个curl调用时,这已经超过了一个PHP扫描所有文件。扫描所有文件需要3到4秒。然后我决定为每个文件扫描创建两个卷发,每个卷曲调用扫描一半的文件。我觉得我没有达到预期的速度增加,所以我现在为每个文件尝试了4个卷发因为我想检查开销/效率比。一些分析告诉我:
$running = null;
do {
curl_multi_exec($mh, $running);
} while($running > 0);
大约需要4秒钟才能完成28次卷发。现在,卷曲所用的最长时间是0.4。为什么有区别?我以为我是以某种方式阻止了它,但28次执行的附加值(在被调用的PHP中独立测量)很容易跳过10秒,所以'多任务'就在那里。
为了让事情变得更清楚,我正在使用这个:
function multiRequest($data, $options = array(),$color) {
// array of curl handles
$curly = array();
// data to be returned
$result = array();
// multi handle
$mh = curl_multi_init();
// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {
$curly[$id] = curl_init();
$url = (is_array($d) && !empty($d['url'])) ? $d['url'] : $d;
curl_setopt($curly[$id], CURLOPT_URL, $url);
//curl_setopt($curly[$id], CURLOPT_TIMEOUT,1); <-- this would make my computer a zombie, seemingly worrying about NOTHING but the curls
curl_setopt($curly[$id], CURLOPT_FRESH_CONNECT, true); //<-- I added this line cuz I heard its good
curl_setopt($curly[$id], CURLOPT_HEADER, 0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);
// post?
if (is_array($d)) {
if (!empty($d['post'])) {
curl_setopt($curly[$id], CURLOPT_POST, 1);
curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d['post']);
}
}
// extra options?
if (!empty($options)) {
curl_setopt_array($curly[$id], $options);
}
curl_multi_add_handle($mh, $curly[$id]);
}
// execute the handles
$running = null;
do {
curl_multi_exec($mh, $running); //<--- grrrr
} while($running > 0);
// get content and remove handles
foreach($curly as $id => $c) {
$result[$id] = curl_multi_getcontent($c);
curl_multi_remove_handle($mh, $c);
}
// all done
curl_multi_close($mh);
}
(我已经读过有一种方法可以添加一个回调函数,它似乎在进展中被触发,这将使我能够操纵“获取内容并删除句柄”部分,但是有可能绕过等待curl_multi_exec循环同时执行curl文件?或者我们必须继续调用curl_multi_exec以继续执行?我在想:1有curl调用PHPs / 2 curl不等待并返回给我们它已经死了,但它运行所需的PHP / 3 PHP按照自己的节奏将数据写入文件,而主程序扫描这些文件,理论上卷曲仍然处理它的开销,而我们已经返回到客户端...) 提前谢谢。