因此作为C程序员,我使用arc4random_uniform()
函数的修改版本来生成均匀分布的伪随机数。
问题是我不明白这个功能是如何工作的,数学上。
这是函数的解释性注释,后面是完整源代码的链接:
/*
* Calculate a uniformly distributed random number less than upper_bound
* avoiding "modulo bias".
*
* Uniformity is achieved by generating new random numbers until the one
* returned is outside the range [0, 2**32 % upper_bound). This
* guarantees the selected random number will be inside
* [2**32 % upper_bound, 2**32) which maps back to [0, upper_bound)
* after reduction modulo upper_bound.
*/
从上面的评论我们可以定义:
[2^32 % upper_bound, 2^32)
- 间隔A [0, upper_bound)
- 间隔B 为了工作,该函数依赖于区间A映射到区间B的事实。
我的问题是:在数学上,为什么区间A中的数字统一到区间B中的数字?有证据吗?
答案 0 :(得分:5)
有时,从容易理解的示例开始,然后从那里进行概括是有帮助的。为了简单起见,我们假设arc4random
返回uint8_t
而不是uint32_t
,因此arc4random
的输出是区间{{}中的数字1}}。让我们选择[0,256)
的7。
请注意,7不会均匀分为256
upper_bound
这意味着天真地使用模运算来获得小于7的伪随机数将导致以下概率分布
256 = 7 * 36 + 4
那些被称为模数偏差的结果,结果0,1,2,3比结果4,5,6更有可能。
为了避免模偏差,我们可以简单地拒绝值252,253,254,255,并生成一个新数字,直到结果在区间37/256 for outcomes 0,1,2,3
36/256 for outcomes 4,5,6
中。区间[0,252)
中的所有数字具有相等的概率(拒绝较高的数字不会影响较低数字的分布)。并且由于7均匀分为252,因此得到的概率分布是均匀的
[0,252)
这基本上是 36/252 for outcomes 0,1,2,3,4,5,6,7
所做的,除了arc4random_uniform
拒绝范围底部的数字。具体来说,区间A将是
arc4random_uniform
在区间[4,256]中生成一个数字(称之为[2^8 % 7, 2^8) which is [4, 256)
)后,最终的计算是
N
在区间[4,256]中有252个数字,并且由于252是7的倍数,区间[0,7]上的每个结果具有相等的概率。
这就是arc4random_uniform如何工作,它拒绝/重试一小部分数字,剩余范围内的数字计数是upper_bound的倍数。 (由于upper_bound与2 ^ 32相比通常是一个较小的数字,因此对单个结果进行多次重试的几率非常小。)
但你真的关心模偏?在大多数情况下,答案是"否"。考虑我们的示例,其上限为7.天真模数实现的概率分布是
outcome = N % 7
这是一个小于0.0000002%的模偏差。
因此,您可以选择:在重试时花费极少的时间来获得完美的分布,或者在概率分布中接受微小的错误以避免重试。