在过去的几天里,我一直在寻找PHP的一致哈希算法。我希望更好地理解一致的哈希实际上是如何工作的,所以我可以在一些即将到来的项目中使用它。在我看来,Flexihash实际上是唯一一个易于理解的纯PHP实现,所以我从它那里做了一些笔记。
我创建了一个自己的小算法,试图了解它是如何工作的,以及如何让它尽可能快地工作。我对我的算法与Flexihash的比较速度感到惊讶,这让我想知道我的实现是否在某种程度上存在缺陷,或者我可能没有抓住整个概念的关键部分。
下面列出了速度差异,超过了100万个连续键(0到1,000,000)的迭代次数。将显示每个节点以显示实际散列到该特定节点的密钥数。
Flexihash:
Time: 269 seconds
Speed: 3714 hashes/sec
node1: 80729
node2: 88390
node3: 103623
node4: 112338
node5: 79893
node6: 85377
node7: 80966
node8: 134462
node9: 117046
node10: 117176
My implementation:
Time: 3 seconds
Speed: 265589 hashes/sec
node1: 100152
node2: 100018
node3: 99884
node4: 99889
node5: 100057
node6: 100030
node7: 99948
node8: 99918
node9: 100011
node10: 100093
这是我当前的哈希算法实现。
class Base_Hasher_Consistent
{
protected $_nodes;
public function __construct($nodes=NULL)
{
$this->_nodes = array();
$node_count = count($nodes);
$hashes_per_node = (int)(PHP_INT_MAX / $node_count);
$old_hash_count = 0;
foreach($nodes as $node){
if(!($node == $nodes[$node_count-1])){
$this->_nodes[] = array(
'name' => $node,
'begin' => $old_hash_count,
'end' => $old_hash_count + $hashes_per_node - 1
);
$old_hash_count += $hashes_per_node;
}else{
$this->_nodes[] = array(
'name' => $node,
'begin' => $old_hash_count,
'end' => PHP_INT_MAX
);
}
}
}
public function hashToNode($data_key,$count=0)
{
$hash_code = (int)abs(crc32($data_key));
foreach($this->_nodes as $node){
if($hash_code >= $node['begin']){
if($hash_code <= $node['end']){
return($node['name']);
}
}
}
}
}
我错过了什么,或者算法真的比Flexihash快?另外,我知道Flexihash支持查找多个节点,因此我不确定它是否与它有任何关系。
我想要一些保证,我理解哈希的一致性如何,或者可能链接到一些真正解释它的文章。
谢谢!
答案 0 :(得分:1)
那么你想知道crc32是如何工作的吗?或者你只是想知道如何编写一个好的“桶”实现?
您的存储桶实现看起来很好。如果你刚刚做了,你可以更快地完成它:
$bucket_index = floor($hash_code / $hashes_per_node);
return $this->_nodes[$bucket_index]['name'];
你写的'算法'只会使$nodes
个数量的桶,并计算出$data_key
应该去哪些桶。你正在使用的实际哈希算法是crc32,如果你正在做桶,它可能不是一个理想的算法。
如果你想知道crc32如何工作以及为什么哈希是一致的..在维基百科上查找一下。据我所知,没有不一致的散列,所以所有散列算法都是定义一致的。
散列算法的一个特征是它可以生成与类似的data_keys非常不同的散列。这对于crc32来说是正确的,因为crc32旨在检测微小的变化。它不能保证的是,由此产生的哈希值“传播良好”。由于您正在执行存储桶,因此您需要一种散列算法,该算法具有在整个频谱范围内生成散列的特定属性。对于crc32,它可能只是巧合地工作。我只是使用md5。
答案 1 :(得分:1)
我想要一些保证,我理解哈希的一致性如何,或者可能链接到一些真正解释它的文章。
这是引导我编写Flexihash的优秀文章: http://www.tomkleinpeter.com/2008/03/17/programmers-toolbox-part-3-consistent-hashing/
我很长时间没有看过代码 - 很可能你的代码更快..速度从来都不是我的关注。但你的做法也可能完全不同:)
另请参阅this commit by rs on GitHub,它声称使用二进制搜索可提高70倍的速度。如果有人能证实它是货物,我会把它合并。
干杯! 保罗