Murmurhash2无符号Int溢出

时间:2017-08-30 14:43:05

标签: c murmurhash

我目前正在尝试实现hashtable / trie,但是当我将参数传递给murmurhash2时,它会返回一个数字,但是我得到了无符号int溢出的运行时错误:

test.c:53:12:运行时错误:无符号整数溢出:24930 * 1540483477无法用'unsigned int'类型表示

test.c:60:4:运行时错误:无符号整数溢出:2950274797 * 1540483477无法以“unsigned int”类型表示 6265

我在第53和60行

上放了一堆星号(*)

我不确定我是否传递了一些参数错误。任何帮助将不胜感激!

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

unsigned int MurmurHash2 ( const void * key, int len, unsigned int seed );

int main(void)
{
   const char* s= "aa";
   unsigned int number= MurmurHash2 (s, (int)strlen(s), 1) % 10000;
   printf("%u\n", number);
}

unsigned int MurmurHash2 ( const void * key, int len, unsigned int seed )
{
// 'm' and 'r' are mixing constants generated offline.
// They're not really 'magic', they just happen to work well.

const unsigned int m = 0x5bd1e995;
const int r = 24;

// Initialize the hash to a 'random' value

unsigned int h = seed ^ len;

// Mix 4 bytes at a time into the hash

const unsigned char * data = (const unsigned char *)key;

while(len >= 4)
{
    unsigned int k = *(unsigned int *)data;

    k *= m;
    k ^= k >> r;
    k *= m;

    h *= m;
    h ^= k;

    data += 4;
    len -= 4;
}

// Handle the last few bytes of the input array

switch(len)
{
case 3: h ^= data[2] << 16;
case 2: h ^= data[1] << 8;
case 1: h ^= data[0];
        h *= m; ************************************************
};

// Do a few final mixes of the hash to ensure the last few
// bytes are well-incorporated.

h ^= h >> 13;
h *= m;   **************************************
h ^= h >> 15;

return h;
}

2 个答案:

答案 0 :(得分:4)

您似乎正在使用UBSan选项-fsanitize=unsigned-integer-overflow或其他一些选项(例如-fsanitize=integer)来启用此检查。 The documentation说:

  

请注意,与有符号整数溢出不同,无符号整数不是未定义的行为。然而,虽然它具有明确定义的语义,但它通常是无意的,因此UBSan提供了捕获它。

在MurmurHash的情况下,乘法中的无符号整数溢出是完全有意的,因此您应该禁用该选项。

  • 如果您明确使用-fsanitize=unsigned-integer-overflow,请将其删除。
  • 如果通过其他选项启用,请传递-fno-sanitize=unsigned-integer-overflow
  • 或者,使用MurmurHash2注释函数__attribute__((no_sanitize("unsigned-integer-overflow")))

另一个注意事项:您的代码似乎是从假设32位int的{​​{3}}复制的。您应该考虑使用uint32_t代替。

答案 1 :(得分:0)

unsigned int具有系统相关的位数。

在大多数系统上,这个数字是32位(4字节),但有些系统可能使用不同的大小(即某些机器上的64位(8字节))。

然而,杂音哈希&#34;字&#34;是一个特定的大小。 64位变体需要64位无符号类型,32位变体需要32位无符号类型。

可以使用uint64_t中定义的uint32_t<stdint.h>类型解决此不一致问题。

我想补充一点,后缀UL(unsigned long)应该添加到你使用的任何数值常量中。即2950274797UL * 1540483477UL

如@nwellnhof所示,您的代码似乎使用了该算法的32位变体。

在这些情况下,乘法指令中的溢出是正常的(其中结果大于可用位的数量并被截断)。作为散列过程的一部分,这种数据丢失是可以接受的。

考虑使用以下方法通知编译器预期的结果:

 h = (uint32_t)(((uint64_t)h * m) & 0xFFFFFFFF)

祝你好运!