生成0和1,伪随机,16个字符串长字符串

时间:2015-04-26 23:30:22

标签: php random binary sha1

我需要生成16个字符长的字符串(来自SHA1哈希),其中只包含0和1,概率为50%(统计上在大多数情况下,字符串中的数量为1,数量为0')。 / p>

所以我写了基准测试,并尝试将每个$ hash字符转换为二进制。 结果很糟糕,我的意思是,如果我将前导零添加到二进制转换哈希,正确的概率远非正确。 当我没有将前导零添加到二进制转换时,概率接近正确:

Percentage all 0 or all 1: 0.0012%
Percentage all 0 or all 1 except 1 character : 0.0146%
Percentage all 0 or all 1 except 2 characters: 0.0812%

但它仍远不是下面的代码产生的真正正确概率:

Percentage all 0 or all 1: 0.003%
Percentage all 0 or all 1 except 1 character : 0.048%
Percentage all 0 or all 1 except 2 characters: 0.376%

我怎么知道它的正确概率?我将二进制转换更改为简单的mt_rand(0,1)十六次(以及其他确认测试)。

必须从sha1哈希生成,才能通过该哈希确定。 任何人都有想法,如何修复我的代码以产生正确的概率结果?我已经尝试了10个小时。

    function binary($text){
            $list = '';
            $temp = '';
            $i = 0;
            while ($i < 16){
                    if (is_numeric($text[$i])){
                            $list .= decbin( $text[$i] );//sprintf( "%08d", decbin( $text[$i] ));
                    } else {
                            $temp = ord($text[$i]);
                            $list .= decbin( $temp );
    //                      $list .= sprintf( "%08d", decbin( $temp ));// substr("00000000",0,8 - strlen($temp)) . $temp;
                    }
            $i++;
            }
            return $list;
    }

    $y = 0;
    $trafien = 0;
    $trafien1= 0;
    $trafien2= 0;
    $max = 500000;
    while ($y < $max){

    $time = uniqid()  . mt_rand(1,999999999999);
    $seed = 'eqm2890rmn9ou8nr9q2';
    $hash = sha1($time . $seed);

    $last4 = substr($hash, 0, 40);
    $binary =  binary($last4);
    $final = substr($binary, 0,16);

    $ile = substr_count($final, '0');
    $ile2= substr_count($final, '1');
    if ($ile == 16 || $ile2 == 16){
        echo "\n".$last4 ." " . 'binary: '. $binary .' final: '. $final;
        $trafien += 1;
    }

    if ($ile == 15 || $ile2 == 15){
        $trafien1 += 1;
    }

    if ($ile == 14 || $ile2 == 14){
        $trafien2 += 1;
    }

$y++;
}

$procent = ($trafien * 100)  / $max;
$procent1= ($trafien1 * 100) / $max;
$procent2= ($trafien2 * 100) / $max;
echo "\nPercentage all 0 or all 1: ". $procent . "%";
echo "\nPercentage all 0 or all 1 except 1 character : ". $procent1 . "%";
echo "\nPercentage all 0 or all 1 except 2 characters: ". $procent2 . "%";

2 个答案:

答案 0 :(得分:0)

我想我不知道为什么你需要在这里重新发明轮子,或者当你只使用4个字符并转换为二进制时使用sha1()。这似乎工作正常:

$n = null;
for ($i=1; $i<=16; $i++) {
  $n .= mt_rand(0,1);
}

这是我写的基准脚本:

// $app for number of appearances
$app[0] = 0;
$app[1] = 0;
$sample = 10000;

for ($t=1; $t<=$sample; $t++) {

  $n = null;
  for ($i=1; $i<=16; $i++) {
    $n .= mt_rand(0,1);
  }

  $app[0] += substr_count($n, 0);
  $app[1] += substr_count($n, 1);
}

print_r($app);
echo "Probability of 0: ".($app[0] / ($sample * 16))."\n";
echo "Probability of 1: ".($app[1] / ($sample * 16))."\n";

10000样本量的输出:

Array
(
    [0] => 80079
    [1] => 79921
)
Probability of 0: 0.50049375
Probability of 1: 0.49950625

100000样本量的输出:

Array
(
    [0] => 799390
    [1] => 800610
)
Probability of 0: 0.49961875
Probability of 1: 0.50038125

答案 1 :(得分:0)

好的,我解决了,由于缺乏知识,我过度工作。您可以使用sha1函数sha1的直接原始二进制输出(data,true)。然后你有真正的确定性0/1随机性:)