我正在努力解决这个问题(CLRS,第3版,练习11.2-1):
假设我们使用散列函数h将n个不同的键散列为长度为m的数组。假设简单的均匀散列,预期的碰撞次数是多少?
正确的解是n(n-1)/ 2m。这取自CLRS的教师手册。
我的解决方案如下:
对于键1的插入:预期与前辈的碰撞次数= 0
对于键2的插入:预期与前辈的碰撞次数= 1 / m
对于键3的插入:预期与前驱的碰撞数#1 / m *(1 / m)+(m-1)/ m *(2 / m)=(2m-1)/ m ^ 2
我的理由:关键1和1的概率为1 / m。 2碰撞在1个槽中,这意味着键3的碰撞概率为1 / m。密钥1和密钥2没有碰撞的概率为(m-1)/ m,这意味着它们位于不同的槽中,密钥3的碰撞概率为2 / m。
3个键的预期碰撞次数,按期望线性度= 0 + 1 / m +(2m-1)/ m ^ 2 =(3m-1)/ m ^ 2
根据CLRS,3个键的预期碰撞次数应为3 / m。
我知道如何使用指标RV的 找到正确的解决方案。
我的问题是:我的解决方案在哪里出错?为什么会有所不同?
答案 0 :(得分:0)
教员手册中的解决方案似乎已关闭。一个简单的例子,将12个键[0..11]通过h(k)= k mod 3散列为3个元素的数组。
我们有存储桶0,其键为0、3、6、9。值区1有键1,4,7,10。值区2具有键2,5,8,11。存储桶0的冲突为{(0,3),(0,6),(0、9),(3,6),(3,9),(6,9)},基数= 6。铲斗1和2也各造成6次碰撞。
因此,本示例中的总碰撞次数为18。如果期望的碰撞次数由n(n-1)/ 2m公式给出,则该碰撞次数将为12 * 11/6 = 22。
错。
通过这样的推理,我得出了另一个公式:
如果我们假设使用统一哈希,则每个存储桶中的键数应与其他任何键数相同,即n / m。因此,碰撞总数将为m * Collisions(单个存储桶)。
现在,我们如何获取每个存储桶中的碰撞次数?好吧,其中的每个键都与所有其他键发生冲突,并且通过一次将它们成对定义冲突集。因此,我们正在研究一次取两个(n / m)个元素的数量组合
C(n / m,2)=(n / m)!/ [2!(n / m -2)!] = [(n / m)(n / m -1)(n / m- 2)!] / [2 *(n / m -2)!]。
(n / m-2)!分子/分母中的各项互相抵消,我们得到
C(n / m,2)= [(n / m)(n / m-1] / 2 = n(n-m)/ 2m ^ 2
因此,碰撞总数为m * C(n / m,2)= n(n-m)/ 2m。
让我们将此应用于我们的示例,对吧?
12(12-3)/ 2 * 3 = 12 * 9/6 = 18
在我们的示例中,这恰好是一组碰撞的基数。
答案 1 :(得分:-1)
密钥1和1的概率为1 / m。 2碰撞在1个槽中,这意味着键3的碰撞概率是1 / m
这取决于如何处理碰撞。对于闭合哈希实现,将为密钥2选择备用存储桶,因此在插入密钥3时第一个哈希到存储桶发生冲突的可能性仍然是2 / m(那么第二选择可能还有机会)铲斗,第3选择铲斗等 - 见下文)。对于开放散列,碰撞元素将被链接在同一个桶中,因此如果密钥1和2发生冲突,则密钥3首次散列到同一个桶的概率减少1 / m(并且可能还有更多的机会在第二选择桶等上碰撞。)。
所以,一个很大的问题是你采用了不同的碰撞处理方法:封闭式和开放式散列。
那就是说,你提出的问题含糊不清 - 碰撞后如何增加价值会影响进一步碰撞的可能性。例如,使用另一个散列算法进行重新散列也可以实现简单的统一散列,这意味着每次碰撞后重新插入尝试时会出现另一个#insertition /#bucket冲突概率,所以系列会:
密钥1:预期#claisions = 0
键2:预期#collisions = 1 / m + 1 / m * 1 / m + 1 / m * 1 / m * 1 / m + ...
键3:预期#collisions = 2 / m + 2 / m * 2 / m + 2 / m * 2 / m * 2 / m + ......
例如,它会有所不同。线性探测,二次探测等。