有没有办法测试哈希函数的质量?我想在哈希表中使用时有一个很好的传播,如果在单元测试中可以验证它会很好。
编辑:为了澄清,我的问题是我在Java中使用long
值,使得前32位编码ID,第二位32位编码另一个ID 。不幸的是,Java的长值散列只是将第一个32位与第二个32位异或,这在我的情况下导致在HashMap
中使用时性能非常差。所以我需要一个不同的哈希,并希望有一个单元测试,以便这个问题不再蔓延。
答案 0 :(得分:9)
首先,我认为你必须通过对自己的良好传播来定义你的意思。您是指对所有可能的输入进行良好的传播,还是仅为可能的输入提供良好的传播?
例如,如果您正在散列表示正确的完整(第一个+最后一个)名称的字符串,那么您可能不会关心数字ASCII字符的哈希值。
至于测试,您最好的选择是获得您期望的大量或随机输入数据集,并通过哈希函数推送它,看看传播是如何结束的。可能不会有一个魔术程序可以说“是的,这对你的用例来说是一个很好的哈希函数。”但是,如果您可以以编程方式生成输入数据,则应该可以轻松地创建生成大量输入数据的单元测试,然后验证扩展是否在您的定义中。
编辑:在64位长的情况下,是否真的有理由使用哈希映射?为什么不直接使用平衡树,直接使用long作为密钥而不是重新使用它?您在整体节点大小上花了一点点(键值大小的2倍),但最终可能会将其保存在性能中。
答案 1 :(得分:8)
您必须使用从您期望它处理的相同(或类似)分发中提取的数据来测试您的哈希函数。当查看64位长的散列函数时,如果从所有可能的长值统一绘制输入值,则默认的Java散列函数非常好。
但是,您已经提到应用程序使用long来存储基本上两个独立的32位值。尝试生成一个类似于您期望实际使用的值的样本,然后使用它进行测试。
对于测试本身,获取样本输入值,对每个值进行散列并将结果放入集合中。计算结果集的大小,并将其与输入集的大小进行比较,这将告诉您哈希函数生成的冲突数。
对于您的特定应用程序,不要简单地将它们一起进行异或,而是尝试将32位值组合在一起,典型的好散列函数将组合两个独立的int。即乘以素数,然后加上。
答案 2 :(得分:3)
如果您使用链式哈希表,那么您真正关心的是冲突次数。在哈希表上作为一个简单的计数器实现这将是微不足道的。每次插入一个项目并且表格必须链接时,递增链式计数器。更好的散列算法将导致更少的冲突。一个好的通用表哈希函数可以检查:djb2
答案 3 :(得分:0)
根据您的澄清:
我在Java中使用了long值,使得前32位编码ID,第二位32位编码另一ID。不幸的是,Java的长值散列只是将第一个32位与第二个32位异或,这在我的情况下导致在HashMap中使用时性能非常差。
看来你在分配两个ID值的方式与HashMap实例的大小之间存在一些不愉快的“共鸣”。
您是否明确调整地图大小或使用默认值? QAD检查似乎表明HashMap<Long,String>
以16桶结构开始,溢出时加倍。这意味着只有ID值的低位实际上参与了散列桶选择。您可以尝试使用其中一个采用初始大小参数的构造函数,并使用初始大小创建地图。
或者,Dave L'建议定义自己的长键散列将允许您避免低位依赖性问题。
另一种看待这种情况的方法是你使用基本类型(long)作为避免定义真实类的方法。我建议通过定义业务类,然后在您自己的类上实现哈希编码,相等和其他方法来管理此问题来查看可以实现的好处。