来自perldata:
You can preallocate space for a hash by assigning to the keys() function.
This rounds up the allocated buckets to the next power of two:
keys(%users) = 1000; # allocate 1024 buckets
在预设散列时,是否有经验法则可以提高性能?
答案 0 :(得分:7)
经验法则是,你知道Hash越大,就越有可能从预先确定它的大小中获得价值。考虑一下你的哈希是否有10个插槽,并且你开始一个接一个地添加,扩展的数量将是a)很少(如果有的话),和b)小(因为数据很少)。
但是如果你知道你至少需要1M项,那么没有理由扩展,并且在表增长时反复复制基础和不断扩展的数据结构。
你会注意到这种扩张吗?呃,也许吧。现代机器非常快,可能不会出现。但这对于堆扩展来说是一个巨大的机会,从而导致了GC和各种各样的事情。所以,如果你知道你将要使用它,这是一个“廉价”的解决方案,可以调整一些更多的性能。
答案 1 :(得分:5)
我试图对散列增长的扩展成本进行基准测试:
use Benchmark qw(cmpthese);
# few values
cmpthese(-4, {
prealloc => sub {
my %hash;
keys(%hash) = 17576;
$hash{$_} = $_ for 'aaa' .. 'zzz';
},
normal => sub {
my %hash;
$hash{$_} = $_ for 'aaa' .. 'zzz';
},
});
# more values
cmpthese(-8, {
prealloc => sub {
my %hash;
keys(%hash) = 456976;
$hash{$_} = $_ for 'aaaa' .. 'zzzz';
},
normal => sub {
my %hash;
$hash{$_} = $_ for 'aaaa' .. 'zzzz';
},
});
结果听起来不像是大优化,但是减少Will Hartung提到的堆碎片可能会带来好处。在WinXP机器上运行perl 5.12。
Rate normal prealloc
normal 48.3/s -- -2%
prealloc 49.4/s 2% --
(warning: too few iterations for a reliable count)
s/iter normal prealloc
normal 3.62 -- -1%
prealloc 3.57 1% --
答案 2 :(得分:2)
基本上它是优化哈希性能的大门。散列性能在很大程度上取决于所使用的散列算法和您正在处理的数据,因此几乎不可能得出经验法则。无论如何,可以说一些事情。
您知道每个数据结构都在空间和时间效率之间提供了一个给定的平衡。哈希表在时间效率方面特别好,提供了吸引人的常量(0(1))时间访问。
除非发生碰撞,否则这是正确的。当发生碰撞时,访问时间与对应于碰撞值的桶的大小成线性关系。 (有关详细信息,请查看this)。除了“慢”之外,冲突主要是访问时间保证的中断,这是最重要的一个方面,通常会导致首先选择哈希表。
理想情况下,哈希表可以瞄准所谓的“完美哈希”(只有当您可以根据要处理的数据类型对算法进行微调时才实际可行),但这并不容易实现在一般情况下(这实际上是一种委婉说法)。无论如何,事实上更大的哈希表(连同良好的哈希算法)可以减少冲突的频率,从而以内存为代价提高性能。较小的哈希表会看到更多的冲突(因此性能较低,访问时间保证质量较差),但占用的内存较少。
因此,如果您对程序进行概要分析并看到哈希表访问是瓶颈(出于任何原因),您有机会通过为哈希空间保留更多内存来解决此问题(如果您有内存可以提供)。
在任何情况下,我都不会随机增加这个值,但只有在彻底分析之后才会增加,因为perl使用的算法也是在(AFAIK)中编译的,这对哈希性能也有很大的影响(在换句话说,即使你使哈希空间更大,你也可能会发生很多冲突。)
与平常相关的事情一样,它可能有用与否,具体取决于你的具体情况。