如何获得一系列独立的通用哈希函数?

时间:2016-04-20 07:57:53

标签: python hash hyperloglog

我正在尝试使用随机平均来实现超级日志计数算法。为此,我需要许多独立的通用散列函数来对不同子流中的项进行散列。

我发现hashlib中只有少数哈希函数可用 我似乎无法提供种子或其他东西?我在考虑为不同的子流使用不同的盐。

1 个答案:

答案 0 :(得分:1)

您可能不需要不同的哈希函数。此问题的常见解决方案是仅使用部分哈希来计算HyperLogLog rho统计信息,而另一部分则用于选择子流。如果你使用一个好的哈希函数(例如murmur3),它实际上表现为多个独立的哈希函数。

请参阅此处的“随机平均”部分以获得对此的解释: https://research.neustar.biz/2012/10/25/sketch-of-the-day-hyperloglog-cornerstone-of-a-big-data-infrastructure/