Question

遵循此question，我们知道两个不同的词典，例如dict_1和dict_2，使用完全相同的哈希函数。

有没有办法改变字典使用的哈希函数？_{也接受否定答案！}

Answer 1

你不能改变哈希函数 - 字典将在它应该插入的键上调用hash，就是这样。

但是，您可以包装密钥以提供不同的__hash__和__eq__ - 方法。

class MyHash(object):
     def __init__(self, v):
         self._v = v

     def __hash__(self):
         return hash(self._v) * -1

     def __eq__(self, other):
         return self._v == other._v

如果这实际上对你的原始问题/问题有所帮助，我怀疑，似乎相反，自定义阵列/基于列表的数据结构可能是答案。或者不是。

Answer 2

这是一个＆＃34;哈希表＆＃34;在列表列表的顶部，其中每个哈希表对象与特定的散列函数相关联。

class HashTable(object):
    def __init__(self, hash_function, size=256):
        self.hash_function = hash_function
        self.buckets = [list() for i in range(size)]
        self.size = size

    def __getitem__(self, key):
        hash_value = self.hash_function(key) % self.size
        bucket = self.buckets[hash_value]
        for stored_key, stored_value in bucket:
            if stored_key == key:
                return stored_value
        raise KeyError(key)


    def __setitem__(self, key, value):
        hash_value = self.hash_function(key) % self.size
        bucket = self.buckets[hash_value]
        i = 0
        found = False
        for stored_key, stored_value in bucket:
            if stored_key == key:
                 found = True
                 break
            i += 1
        if found:
            bucket[i] = (key, value)
        else:
            bucket.append((key, value))

您的应用程序的其余部分仍然可以看到底层的存储桶列表。您的应用程序可能需要与每个存储桶关联的其他元数据，但这就像为存储桶列表的元素而不是普通列表定义新类一样简单。

Answer 3

我认为您想要的是一种创建存储桶的方法。基于此，我建议collections.defaultdict使用set初始化程序作为“存储桶”（取决于您使用它的目的）。

以下是一个示例：

#!/usr/bin/env python

from collections import defaultdict
from itertools import combinations

d = defaultdict(set)

strs = ["str", "abc", "rts"]
for s in strs:
    d[hash(s)].add(s)
    d[hash(''.join(reversed(s)))].add(s)

for combination in combinations(d.values(), r=2):
    matches = combination[0] & combination[1]
    if len(matches) > 1:
        print matches

# output: set(['str', 'rts'])

此处相同存储桶中的两个字符串非常可能相同。我通过使用反向函数并使用字符串创建了一个哈希冲突，它反过来作为值。

请注意，该集合将使用完整比较，但应该非常快。

在不排空集合的情况下，不要散列过多的值。

改变字典的哈希函数

3 个答案: