我需要python中的高性能字符串散列函数,它产生至少 34 位输出的整数(64位有意义,但32位太少)。 Stack Overflow还有其他几个问题,但是我可以找到的每个被接受/提出的答案都属于几个类别之一,不适用(由于给定的原因。)
hash()
函数。这个函数,至少在我正在开发的机器上(使用python 2.7和64位cpu)产生一个整数这符合32位 - 对我来说不够大。string.__hash__()
函数作为原型来编写自己的函数。我怀疑这是正确的方法,除了这个特定函数的效率在于它的使用c_mul函数,包裹大约32位 - 再次,对我来说太小了!非常令人沮丧,它非常接近完美!理想的解决方案具有以下属性,具有相对宽松的重要性。
'Perturbed'哈希示例,其中哈希值以小整数值n急剧变化n
def perturb_hash(key,n):
return hash((key,n))
最后,如果你对我正在做的事情感到好奇,我需要这样一个特定的哈希函数,我正在完全重写pybloom模块以大大提高它的性能。我成功了(它现在运行速度提高了大约4倍,占用了大约50%的空间)但是我注意到有时如果滤波器变得足够大,它会突然出现假阳性率。我意识到这是因为哈希函数没有解决足够的位数。 32位只能解决40亿位(请注意,滤波器地址位而不是字节)和一些我用于基因组数据的滤波器加倍或更多(因此最少34位。)
谢谢!
答案 0 :(得分:22)
看看128-bit variant of MurmurHash3。 algorithm's page包含一些性能数字。应该可以将其移植到Python,纯或作为C扩展。 (更新作者建议使用128位变体并丢弃不需要的位。)
如果MurmurHash2 64位适合您,pyfasthash package中有一个Python实现(C扩展),其中包含一些其他非加密哈希变体,但其中一些仅提供32位输出
更新我为Murmur3哈希函数做了一个快速的Python包装器。 Github project is here您可以在Python Package Index as well找到它;它只需要一个C ++编译器来构建;不需要提升。
用法示例和时序比较:
import murmur3
import timeit
# without seed
print murmur3.murmur3_x86_64('samplebias')
# with seed value
print murmur3.murmur3_x86_64('samplebias', 123)
# timing comparison with str __hash__
t = timeit.Timer("murmur3.murmur3_x86_64('hello')", "import murmur3")
print 'murmur3:', t.timeit()
t = timeit.Timer("str.__hash__('hello')")
print 'str.__hash__:', t.timeit()
输出:
15662901497824584782
7997834649920664675
murmur3: 0.264422178268
str.__hash__: 0.219163894653
答案 1 :(得分:3)
使用内置的hash()函数。这个功能,至少在我正在开发的机器上(用 python 2.7和64位cpu)产生一个适合32位的整数 - 不够大 我的目的。
那不是真的。内置的哈希函数将在64位系统上生成64位哈希值。
这是来自Objects/stringobject.c
(Python版本2.7)的python str哈希函数:
static long
string_hash(PyStringObject *a)
{
register Py_ssize_t len;
register unsigned char *p;
register long x; /* Notice the 64-bit hash, at least on a 64-bit system */
if (a->ob_shash != -1)
return a->ob_shash;
len = Py_SIZE(a);
p = (unsigned char *) a->ob_sval;
x = *p << 7;
while (--len >= 0)
x = (1000003*x) ^ *p++;
x ^= Py_SIZE(a);
if (x == -1)
x = -2;
a->ob_shash = x;
return x;
}
答案 2 :(得分:2)
“strings”:我假设您希望散列Python 2.x str
对象和/或Python3.x bytes
和/或bytearray
对象。
这可能违反了您的第一个约束,但是:考虑使用类似
的内容(zlib.adler32(strg, perturber) << N) ^ hash(strg)
获得(32 + N)位哈希。
答案 3 :(得分:0)
如果您可以使用Python 3.2,则64位Windows上的哈希结果现在是64位值。
答案 4 :(得分:0)
请谨慎使用内置的哈希函数!
从Python3开始,每次解释器启动时,它都会被填充不同的种子(我不知道更多详细信息),因此它每次都会生成不同的值-但不适用于本机数字类型。
$ python3 -c 'print(hash("Hello!"), hash(3.14))'
-1756730906053498061 322818021289917443
$ python3 -c 'print(hash("Hello!"), hash(3.14))'
-4556027264747844925 322818021289917443
$ python3 -c 'print(hash("Hello!"), hash(3.14))'
-4403217265550417031 322818021289917443