我们可以说截断的md5
哈希仍然是均匀分布的吗?
为了避免误解:我知道当你开始从 但我也非常想知道 由于mediawiki使用它(特别是最左边的两个十六进制数字作为结果的字符)来生成图像的文件路径(例如md5
结果中删除部分时,碰撞的可能性会大得多;我的用例实际上是感兴趣的感兴趣在故意冲突中。我也知道有other hash methods可能更适合使用较短哈希的用例(实际上包括我自己的),我肯定会研究那些。 / p>
md5
的统一分布是否也适用于它的大块。 (认为这是一种燃烧的好奇心。)/4/42/The-image-name-here.png
),并且它们可能也对至少接近 - 均匀分布,我想答案是“是”,但我实际上并不知道
答案 0 :(得分:27)
是的,不表现出任何偏见是加密哈希的设计要求。从加密的角度来看,MD5是破碎的,但结果的分布从未出现过问题。
如果仍然需要说服,那么散列一堆文件,截断输出并使用ent(http://www.fourmilab.ch/random/)来分析结果并不是一件大事。
答案 1 :(得分:12)
我写了一个小程序来回答这个问题。它不是很科学,但它显示了使用自然数作为hashtext的哈希值的第一个和最后一个8位的分布。在大约40.000.000哈希之后,最高和最低计数之间的差异下降到1%,所以我说分配是可以的。我希望代码更准确地解释计算的内容:-) 顺便说一句,有了类似的程序,我发现最后的8位似乎比第一位稍好一些。
<?php
// Setup count-array:
for ($y=0; $y<16; $y++) {
for ($x=0; $x<16; $x++) {
$count[dechex($x).dechex($y)] = 0;
}
}
$text = 1; // The text we will hash.
$hashCount = 0;
$steps = 10000;
while (1) {
// Calculate & count a bunch of hashes:
for ($i=0; $i<$steps; $i++) {
$hash = md5($text);
$count[substr($hash, 0, 2)]++;
$count[substr($hash, -2)]++;
$text++;
}
$hashCount += $steps;
// Output result so far:
system("clear");
$min = PHP_INT_MAX; $max = 0;
for ($y=0; $y<16; $y++) {
for ($x=0; $x<16; $x++) {
$n = $count[dechex($x).dechex($y)];
if ($n < $min) $min = $n;
if ($n > $max) $max = $n;
print $n."\t";
}
print "\n";
}
print "Hashes: $hashCount, Min: $min, Max: $max, Delta: ".((($max-$min)*100)/$max)."%\n";
}
?>