数组插入时间跳转

时间:2015-05-20 15:35:19

标签: php arrays hashtable

在深入研究hash和zval结构以及数组如何基于它时,面临奇怪的插入时间。

以下是示例:

$array = array();
$someValueToInsert = 100;
for ($i = 0; $i < 10000; ++$i) {
    $time = microtime(true);
    array_push($array, $someValueToInsert);
    echo $i . " : " . (int)((microtime(true) - $time) * 100000000) . "</br>";
}

因此,我发现每个102420244048 ...元素将使用更多时间插入(&gt; ~x10)。

这取决于我使用array_pusharray_unshift还是$array[] = someValueToInsert

我在Hash结构中思考这个问题:

typedef struct _hashtable {
   ...
    uint nNumOfElements; 
 ...
} HashTable;

nNumOfElements有默认的最大值,但它没有答案为什么在特殊计数器(1024,2048 ......)中插入需要更多时间。

有什么想法吗?

2 个答案:

答案 0 :(得分:3)

我认为它与动态数组的实现有关。 请参阅此处&#34;几何扩展和摊销成本&#34; http://en.wikipedia.org/wiki/Dynamic_array

To avoid incurring the cost of resizing many times, dynamic arrays resize by a large amount, **such as doubling in size**, and use the reserved space for future expansion

您也可以在这里阅读PHP中的数组https://nikic.github.io/2011/12/12/How-big-are-PHP-arrays-really-Hint-BIG.html

这是动态数组的标准做法。例如。点击这里C++ dynamic array, increasing capacity

capacity = capacity * 2; // doubles the capacity of the array

答案 1 :(得分:3)

虽然我建议在PHP内部列表中仔细检查我的答案,但我相信答案在于zend_hash_do_resize()。当哈希表中需要更多元素时,将调用此函数,并且现有哈希表的大小加倍。由于表格从1024开始,这个加倍解释了你观察到的结果。代码:

} else if (ht->nTableSize < HT_MAX_SIZE) {  /* Let's double the table size */
    void *old_data = HT_GET_DATA_ADDR(ht);
    Bucket *old_buckets = ht->arData;

    HANDLE_BLOCK_INTERRUPTIONS();
    ht->nTableSize += ht->nTableSize;
    ht->nTableMask = -ht->nTableSize;
    HT_SET_DATA_ADDR(ht, pemalloc(HT_SIZE(ht), ht->u.flags & HASH_FLAG_PERSISTENT));
    memcpy(ht->arData, old_buckets, sizeof(Bucket) * ht->nNumUsed);
    pefree(old_data, ht->u.flags & HASH_FLAG_PERSISTENT);
    zend_hash_rehash(ht);
    HANDLE_UNBLOCK_INTERRUPTIONS();

我不确定remalloc是否是性能命中,或者重击是否是命中,或者整个块是不可中断的事实。将剖析器放在上面会很有趣。我想有些人可能已经为PHP 7做过了。

旁注,Thread Safe版本的做法有所不同。我对这段代码并不太熟悉,所以如果你使用ZTS可能会有不同的问题。