好的,这不是“如何获取所有唯一身份”或“如何从我的数组中删除重复项”的问题。这是一个关于时间复杂性的问题。
我认为array_unique
有点O(n ^ 2 - n),这是我的实现:
function array_unique2($array)
{
$to_return = array();
$current_index = 0;
for ( $i = 0 ; $i < count($array); $i++ )
{
$current_is_unique = true;
for ( $a = $i+1; $a < count($array); $a++ )
{
if ( $array[$i] == $array[$a] )
{
$current_is_unique = false;
break;
}
}
if ( $current_is_unique )
{
$to_return[$current_index] = $array[$i];
}
}
return $to_return;
}
然而,在对array_unique
进行基准测试时,得到了以下结果:
测试(array_unique2)...操作花了0.52146291732788 s。
测试(array_unique)...操作花了0.28323101997375 s。
这使得array_unique的速度提高了两倍,我的问题是,为什么(两者都有相同的随机数据)?
我的一位朋友写了以下内容:
function array_unique2($a)
{
$n = array();
foreach ($a as $k=>$v)
if (!in_array($v,$n))
$n[$k]=$v;
return $n;
}
的速度是php中内置速度的两倍。
我想知道,为什么?
array_unique和in_array的时间复杂度是什么?
修改 我从两个循环中删除了count($ array),只是在函数顶部使用了一个变量,在100 000个元素上获得了2秒!
答案 0 :(得分:13)
虽然我不能说原生array_unique函数,但我可以告诉你,你的朋友算法更快,因为:
虽然这些因素都不是很大,但我可以看到累积效应会使你的算法花费的时间比朋友长。
答案 1 :(得分:9)
in_array()
的时间复杂度为 O(n)。要看到这一点,我们会看一下PHP source code。
in_array()
功能在ext/standard/array.c
中实施。所有这一切都是调用php_search_array()
,其中包含以下循环:
while (zend_hash_get_current_data_ex(target_hash, (void **)&entry, &pos) == SUCCESS) {
// checking the value...
zend_hash_move_forward_ex(target_hash, &pos);
}
这就是线性特征的来源。
这是算法的整体特征,因为zend_hash_move_forward_ex()
具有恒定的行为:看Zend/zend_hash.c
,我们看到它基本上只是
*current = (*current)->pListNext;
至于array_unique()
的时间复杂度:
struct bucketindex
的C数组,并将指向我们数组副本的指针放入这些存储桶 - 线性特征bucketindex
- 数组将按快速排序 - n log
n 希望这会有所帮助;)
答案 2 :(得分:4)
试试这个算法。它利用了键查找比in_array()更快的事实:
function array_unique_mine($A) {
$keys = Array();
$values = Array();
foreach ($A as $k => $v) {
if (!array_key_exists($v, $values)) {
$keys[] = $k;
$values[$v] = $v;
}
}
return array_combine($keys, $values);
}
答案 3 :(得分:2)
Gabriel's answer对于为什么你朋友的方法胜过你的方法有一些很好的观点。受到Christoph's answer之后的对话的兴趣,我决定对自己进行一些测试。
另外,我尝试使用不同长度的随机字符串,尽管结果不同,但顺序是相同的。为简洁起见,我在这个例子中使用了6个字符。
请注意,array_unique5实际上具有与native,2和3相同的键,但只是以不同的顺序输出。
结果...
Testing 10000 array items of data over 1000 iterations:
array_unique6: 1.7561039924622 array ( 9998 => 'b', 9992 => 'a', 9994 => 'f', 9997 => 'e', 9993 => 'c', 9999 => 'd', )
array_unique4: 1.8798060417175 array ( 0 => 'b', 1 => 'a', 2 => 'f', 3 => 'e', 4 => 'c', 5 => 'd', )
array_unique5: 7.5023629665375 array ( 10 => 'd', 0 => 'b', 3 => 'e', 2 => 'f', 9 => 'c', 1 => 'a', )
array_unique3: 11.356487989426 array ( 0 => 'b', 1 => 'a', 2 => 'f', 3 => 'e', 9 => 'c', 10 => 'd', )
array_unique: 22.535032987595 array ( 0 => 'b', 1 => 'a', 2 => 'f', 3 => 'e', 9 => 'c', 10 => 'd', )
array_unique2: 62.107122898102 array ( 0 => 'b', 1 => 'a', 2 => 'f', 3 => 'e', 9 => 'c', 10 => 'd', )
array_unique7: 71.557286024094 array ( 0 => 'b', 1 => 'a', 2 => 'f', 3 => 'e', 9 => 'c', 10 => 'd', )
和守则......
set_time_limit(0);
define('HASH_TIMES', 1000);
header('Content-Type: text/plain');
$aInput = array();
for ($i = 0; $i < 10000; $i++) {
array_push($aInput, chr(rand(97, 102)));
}
function array_unique2($a) {
$n = array();
foreach ($a as $k=>$v)
if (!in_array($v,$n))
$n[$k]=$v;
return $n;
}
function array_unique3($aOriginal) {
$aUnique = array();
foreach ($aOriginal as $sKey => $sValue) {
if (!isset($aUnique[$sValue])) {
$aUnique[$sValue] = $sKey;
}
}
return array_flip($aUnique);
}
function array_unique4($aOriginal) {
return array_keys(array_flip($aOriginal));
}
function array_unique5($aOriginal) {
return array_flip(array_flip(array_reverse($aOriginal, true)));
}
function array_unique6($aOriginal) {
return array_flip(array_flip($aOriginal));
}
function array_unique7($A) {
$keys = Array();
$values = Array();
foreach ($A as $k => $v) {
if (!array_key_exists($v, $values)) {
$keys[] = $k;
$values[$v] = $v;
}
}
return array_combine($keys, $values);
}
function showResults($sMethod, $fTime, $aInput) {
echo $sMethod . ":\t" . $fTime . "\t" . implode("\t", array_map('trim', explode("\n", var_export(call_user_func($sMethod, $aInput), 1)))) . "\n";
}
echo 'Testing ' . (count($aInput)) . ' array items of data over ' . HASH_TIMES . " iterations:\n";
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique($aInput);
$aResults['array_unique'] = microtime(1) - $fTime;
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique2($aInput);
$aResults['array_unique2'] = microtime(1) - $fTime;
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique3($aInput);
$aResults['array_unique3'] = microtime(1) - $fTime;
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique4($aInput);
$aResults['array_unique4'] = microtime(1) - $fTime;
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique5($aInput);
$aResults['array_unique5'] = microtime(1) - $fTime;
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique6($aInput);
$aResults['array_unique6'] = microtime(1) - $fTime;
$fTime = microtime(1);
for ($i = 0; $i < HASH_TIMES; $i++) array_unique7($aInput);
$aResults['array_unique7'] = microtime(1) - $fTime;
asort($aResults, SORT_NUMERIC);
foreach ($aResults as $sMethod => $fTime) {
showResults($sMethod, $fTime, $aInput);
}
使用评论中的Christoph's数据集的结果:
$aInput = array(); for($i = 0; $i < 1000; ++$i) $aInput[$i] = $i; for($i = 500; $i < 700; ++$i) $aInput[10000 + $i] = $i;
Testing 1200 array items of data over 1000 iterations:
array_unique6: 0.83235597610474
array_unique4: 0.84050011634827
array_unique5: 1.1954448223114
array_unique3: 2.2937450408936
array_unique7: 8.4412341117859
array_unique: 15.225166797638
array_unique2: 48.685120105743
答案 4 :(得分:1)
PHP的数组实现为哈希表,即它们的性能特征与您对“真实”数组的期望不同。数组的键值对另外存储在链表中以允许快速迭代。
这解释了为什么你的实现与你朋友的实现相比很慢:对于每个数字索引,你的算法必须进行哈希表查找,而foreach()
- 循环只会迭代链表。
以下实现使用反向哈希表,可能是最快的人群(双重翻转由 joe_mucchiello 提供):
function array_unique2($array) {
return array_flip(array_flip($array));
}
这仅在$array
的值是有效键(即整数或字符串)时才有效。
我还使用foreach()
- 循环重新实现了算法。现在,它实际上比你朋友的小数据集更快,但仍比array_flip()
的解决方案慢:
function array_unique3($array) {
$unique_array = array();
foreach($array as $current_key => $current_value) {
foreach($unique_array as $old_value) {
if($current_value === $old_value)
continue 2;
}
$unique_array[$current_key] = $current_value;
}
return $unique_array;
}
对于大型数据集,内置版本array_unique()
将胜过除双重翻转之外的所有其他版本。此外,您的朋友使用in_array()
的版本将比array_unique3()
快。
总结:获胜的原生代码!
另一个版本,它应该保留密钥及其顺序:
function array_flop($array) {
$flopped_array = array();
foreach($array as $key => $value) {
if(!isset($flopped_array[$value]))
$flopped_array[$value] = $key;
}
return $flopped_array;
}
function array_unique4($array) {
return array_flip(array_flop($array));
}
这实际上是 enobrev 的array_unique3()
- 我没有像我应该的那样彻底检查他的实施......
答案 5 :(得分:0)
PHP执行速度比原始机器代码慢(很可能由array_unique
执行)。
你的第二个例子函数(你朋友写的那个)很有趣。我没有看到它比原生实现更快,除非本机实现删除元素而不是构建新数组。
答案 6 :(得分:0)
我承认我不太了解本机代码,但它似乎复制整个数组,对其进行排序,然后循环删除重复项。在这种情况下,你的第二段代码实际上是一种更有效的算法,因为添加到数组的末尾比从中间删除更便宜。
请记住,PHP开发人员可能有充分的理由按照他们的方式执行此操作。有人想问他们吗?
答案 7 :(得分:0)
本机PHP函数array_unique
是implemented in C。因此它比PHP快,必须首先进行翻译。而且,PHP使用的算法与您使用的算法不同。在我看来,PHP首先使用Quick sort对元素进行排序,然后在一次运行中删除重复项。
为什么他的朋友的实施更快有他自己的?因为它使用了更多内置功能来尝试重新创建它们。