在深入研究hash和zval结构以及数组如何基于它时,面临奇怪的插入时间。
以下是示例:
$array = array();
$someValueToInsert = 100;
for ($i = 0; $i < 10000; ++$i) {
$time = microtime(true);
array_push($array, $someValueToInsert);
echo $i . " : " . (int)((microtime(true) - $time) * 100000000) . "</br>";
}
因此,我发现每个1024
,2024
,4048
...元素将使用更多时间插入(&gt; ~x10)。
这取决于我使用array_push
,array_unshift
还是$array[] = someValueToInsert
。
我在Hash结构中思考这个问题:
typedef struct _hashtable {
...
uint nNumOfElements;
...
} HashTable;
nNumOfElements
有默认的最大值,但它没有答案为什么在特殊计数器(1024,2048 ......)中插入需要更多时间。
有什么想法吗?
答案 0 :(得分:3)
我认为它与动态数组的实现有关。 请参阅此处&#34;几何扩展和摊销成本&#34; http://en.wikipedia.org/wiki/Dynamic_array
To avoid incurring the cost of resizing many times, dynamic arrays resize by a large amount, **such as doubling in size**, and use the reserved space for future expansion
您也可以在这里阅读PHP中的数组https://nikic.github.io/2011/12/12/How-big-are-PHP-arrays-really-Hint-BIG.html
这是动态数组的标准做法。例如。点击这里C++ dynamic array, increasing capacity
capacity = capacity * 2; // doubles the capacity of the array
答案 1 :(得分:3)
虽然我建议在PHP内部列表中仔细检查我的答案,但我相信答案在于zend_hash_do_resize()。当哈希表中需要更多元素时,将调用此函数,并且现有哈希表的大小加倍。由于表格从1024开始,这个加倍解释了你观察到的结果。代码:
} else if (ht->nTableSize < HT_MAX_SIZE) { /* Let's double the table size */
void *old_data = HT_GET_DATA_ADDR(ht);
Bucket *old_buckets = ht->arData;
HANDLE_BLOCK_INTERRUPTIONS();
ht->nTableSize += ht->nTableSize;
ht->nTableMask = -ht->nTableSize;
HT_SET_DATA_ADDR(ht, pemalloc(HT_SIZE(ht), ht->u.flags & HASH_FLAG_PERSISTENT));
memcpy(ht->arData, old_buckets, sizeof(Bucket) * ht->nNumUsed);
pefree(old_data, ht->u.flags & HASH_FLAG_PERSISTENT);
zend_hash_rehash(ht);
HANDLE_UNBLOCK_INTERRUPTIONS();
我不确定remalloc是否是性能命中,或者重击是否是命中,或者整个块是不可中断的事实。将剖析器放在上面会很有趣。我想有些人可能已经为PHP 7做过了。
旁注,Thread Safe版本的做法有所不同。我对这段代码并不太熟悉,所以如果你使用ZTS可能会有不同的问题。