128位密钥的快速通用散列函数

时间:2017-10-25 14:41:42

标签: java c hash micro-optimization

我需要一个128位密钥的非常快速的通用哈希函数。返回值需要大约32位(嗯,16位就足够了;在大多数情况下,我实际上只需要1-4位)。

通用散列意味着,有两个参数:密钥(128位)和索引(64位)。对于两个密钥,如果使用不同的索引调用,则通用散列函数最终需要返回不同的结果。因此,对于不同的索引,通用哈希应该表现得像一个不同的哈希函数。对于x = universalHash(k, i)y = universalHash(k, i + 1),最好是平均50%的所有位在x和y之间(随机)不同。如果使用不同的键调用方法,则情况相同。在实践中,5%的折扣对我来说是可以的。

它需要非常快(最多一次或两次乘法)。它被称为数百万次。请不要说:不,你不需要它快速。它最终还需要返回不同的值。

到目前为止我所拥有的(Java代码,但是C是(由于缺少128位数据类型,密钥是a和b的组合,每个是64位):

int universalHash(long a, long b, long index) {
    long x = a ^ Long.rotateLeft(b, (int) index) ^ index;
    int y = (int) ((x >>> 32) ^ x);
    y = ((y >>> 16) ^ y) * 0x45d9f3b;
    y = ((y >>> 16) ^ y) * 0x45d9f3b;
    y = (y >>> 16) ^ y;
    return y;
}

int universalHash2(long a, long b, long index) {
    long x = Long.rotateLeft(a, (int) index) ^ 
            Long.rotateRight(b, (int) index) ^ index;
    x = (x ^ (x >>> 32)) * 0xbf58476d1ce4e5b9L;
    return (int) ((x >>> 32) ^ x);
}

(对于某些值,第二种方法实际上已被破坏。)

我希望哈希函数比上面的更快,并且保证在所有情况下都能正常工作(如果可能的话,可以证明是正确的,甚至认为这不是一个严格的要求;它不会然而,需要加密安全。)

对于相同的键,我将使用递增索引(第一个索引0,然后是索引1,依此类推)调用universalHash方法。如果下一个结果可以比前一个结果更快地计算(例如没有乘法),那将是最好的。但我还需要快速直接访问"如果索引是某个值(如示例代码中所示)。

背景

我试图解决的问题是为相对较小的一组键找到一个MPHF(最小完美散列函数)(通过直接映射最多16个键,通过分割成更小的子集最多可达到1024个键) )。有关算法的详细信息,请参阅我的MinPerf project,特别是RecSplit algorithm。为了支持10 ^ 12的集合(如BBHash),我试图在内部使用128位签名,这将简化算法。

1 个答案:

答案 0 :(得分:0)

您需要一个哈希函数,为128位输入输出32位。

一种简单的方法就是回归"一些"原始128位中的32位。有多种方法可以选择32位,每种选择都会产生冲突。但是索引可以决定选择哪个32位。

128/32 = 4,因此4个索引足以找到至少一个不同的位。

  • 对于键0,您选择最低32位
  • 对于密钥1,您选择下一个32位
  • 依旧......

C实现将是

uint32_t universal_hash(uint64_t key_higher, uint64_t key_lower, int index) {
    // For a lack of portable 128 bit datatype we take the key in parts.
    return 0xFFFFFFFF & ( index >=2 ? key_higher >> ((index - 2)*32) : key_lower >> (index*32));
}