Question

我需要一个128位密钥的非常快速的通用哈希函数。返回值需要大约32位（嗯，16位就足够了;在大多数情况下，我实际上只需要1-4位）。

通用散列意味着，有两个参数：密钥（128位）和索引（64位）。对于两个密钥，如果使用不同的索引调用，则通用散列函数最终需要返回不同的结果。因此，对于不同的索引，通用哈希应该表现得像一个不同的哈希函数。对于x = universalHash(k, i)和y = universalHash(k, i + 1)，最好是平均50％的所有位在x和y之间（随机）不同。如果使用不同的键调用方法，则情况相同。在实践中，5％的折扣对我来说是可以的。

它需要非常快（最多一次或两次乘法）。它被称为数百万次。请不要说：不，你不需要它快速。它最终还需要返回不同的值。

到目前为止我所拥有的（Java代码，但是C是（由于缺少128位数据类型，密钥是a和b的组合，每个是64位）：

int universalHash(long a, long b, long index) {
    long x = a ^ Long.rotateLeft(b, (int) index) ^ index;
    int y = (int) ((x >>> 32) ^ x);
    y = ((y >>> 16) ^ y) * 0x45d9f3b;
    y = ((y >>> 16) ^ y) * 0x45d9f3b;
    y = (y >>> 16) ^ y;
    return y;
}

int universalHash2(long a, long b, long index) {
    long x = Long.rotateLeft(a, (int) index) ^ 
            Long.rotateRight(b, (int) index) ^ index;
    x = (x ^ (x >>> 32)) * 0xbf58476d1ce4e5b9L;
    return (int) ((x >>> 32) ^ x);
}

（对于某些值，第二种方法实际上已被破坏。）

我希望哈希函数比上面的更快，并且保证在所有情况下都能正常工作（如果可能的话，可以证明是正确的，甚至认为这不是一个严格的要求;它不会然而，需要加密安全。）

对于相同的键，我将使用递增索引（第一个索引0，然后是索引1，依此类推）调用universalHash方法。如果下一个结果可以比前一个结果更快地计算（例如没有乘法），那将是最好的。但我还需要快速直接访问＆＃34;如果索引是某个值（如示例代码中所示）。

背景

我试图解决的问题是为相对较小的一组键找到一个MPHF（最小完美散列函数）（通过直接映射最多16个键，通过分割成更小的子集最多可达到1024个键））。有关算法的详细信息，请参阅我的MinPerf project，特别是RecSplit algorithm。为了支持10 ^ 12的集合（如BBHash），我试图在内部使用128位签名，这将简化算法。

Answer 1

您需要一个哈希函数，为128位输入输出32位。

一种简单的方法就是回归＆＃34;一些＆＃34;原始128位中的32位。有多种方法可以选择32位，每种选择都会产生冲突。但是索引可以决定选择哪个32位。

128/32 = 4，因此4个索引足以找到至少一个不同的位。

对于键0，您选择最低32位
对于密钥1，您选择下一个32位
依旧......

C实现将是

uint32_t universal_hash(uint64_t key_higher, uint64_t key_lower, int index) {
    // For a lack of portable 128 bit datatype we take the key in parts.
    return 0xFFFFFFFF & ( index >=2 ? key_higher >> ((index - 2)*32) : key_lower >> (index*32));
}

128位密钥的快速通用散列函数

1 个答案: