我有一个短语计数器功能作为一个类的一部分,我想适应运行非常大的数据集
<?php
private static function do_phrase_count($words, $multidim, $count, $pcount){
if($multidim === false){
$words = array($words);
}
$tally = array();
$arraycount = 0;
foreach($words as $wordgroup){
$max = count($wordgrounp) - $pcount;
for($x = 0; $x < $max; $x++){
$cutoff = $x + $pcount;
$spacekey = false;
$phrase = '';
$z = 0;
for($y = $x; $y < $cutoff; $y++){
if($spacekey) $phrase .= ' ';
else $spacekey = true;
$phrase .= $wordgroup[$y + $z];
$z++;
}
if(isset($tally[$phrase])){
$tally[$phrase]++;
$arraycount++;
}
else $tally[$phrase] = 1;
if($arraycount > 99999){
arsort($tally);
$tally = array_slice($tally, 0, 50000);
$arraycount = 49999;
}
}
}
arsort($tally);
$out = array_slice($tally, 0, $count);
return $out;
}
每次迭代,array_key_exists都会变慢,所以在某一点上我需要减小tally数组的大小。
我正在考虑使用限制(100K)来阻止脚本向$ tally添加新数组元素,甚至使用总字数的百分比,但在我停止向数组添加新元素后,我失去了跟踪能力可能会出现的趋势。 (如果我分析一年的数据,到6月份的时候,我就无法将“夏令时”视为趋势)。
任何人都有一个解决方案,如何限制我的计数数组,以保持脚本zinging而不会失去跟踪趋势的能力?
更新:我根据您的建议更改了脚本。谢谢你的帮忙。我还想出了一个减少阵列大小的解决方案。
答案 0 :(得分:3)
除了Cheery的回答,请从for循环中删除count($var)
。每次迭代,您都会不必要地重新计算$ var。
$groupsize = count($wordgroup) - $pcount;
for($x = 0; $x < $groupsize; $x++){
//...
引用:God kills a kitten every time you call count() inside a loop.
答案 1 :(得分:2)
if(isset($tally[$phrase]))
$tally[$phrase]++;
else
$tally[$phrase] = 1;
它应该比array_key_exists
ps:测试样本
function genRandomString($length) {
$characters = '0123456789abcdefghijklmnopqrstuvwxyz';
$string = '';
for ($p = 0; $p < $length; $p++) {
$string .= $characters[mt_rand(0, strlen($characters)-1)];
}
return $string;
}
function microtime_float()
{
list($usec, $sec) = explode(" ", microtime());
return ((float)$usec + (float)$sec);
}
$len = 1000000; $str = genRandomString($len);
$tally = array();
$stamp1 = microtime_float();
for($i=0; $i<$len; $i++)
{
if(array_key_exists($str[$i], $tally))
$tally[$str[$i]]++;
else
$tally[$str[$i]] = 1;
}
echo microtime_float() - $stamp1 . '<br />';
$tally = array(); $stamp1 = microtime_float();
for($i = 0; $i<$len; $i++)
{
if(isset($tally[$str[$i]]))
$tally[$str[$i]]++;
else
$tally[$str[$i]] = 1;
}
echo microtime_float() - $stamp1 . '<br />';
结果:
0.80751395225525
0.44111108779907
当然,这里的钥匙数量有限。