在编码理论中,我遇到了一个问题:
从F(2,n)字段中选择两个随机字符串,即每个位只能取0和1,字符串长度为n位。
现在,我们想知道两个字符串之间不同位数的分布。 (即汉明距离)
实验表明它非常接近0.5,并且分布是正态分布。有没有办法证明这一点?
(简单的模型就像,我掷了两个硬币n次并计算差异的数量,例如0.49n;并且重复这个实验足够大的k次。这个差异在k上的分布是多少?)
答案 0 :(得分:0)
不同位的数量是自变量集合的总和(即指标变量,如果它们不同则为1,如果它们相同则为0),所有这些变量都具有有限的方差;因此,该数字的分布近似为高斯分布,随着n
的增加而变得更高斯。
精确分布是二项式的,因为它是具有恒定概率的独立0/1变量的总和(指标变量都具有相同的概率,即指标= 1的1/2和指标= 0的1/2)
我在记忆中工作;如果不亲自验证,请不要接受这个答案。
答案 1 :(得分:0)
设X和Y是独立的随机变量,其值是从长度为n的二进制字符串集合中均匀绘制的:X,Y~U({0,1} n )。
设d(X,Y)为汉明距离。
然后d(X,Y)是从具有n个可能事件的Binomial distribution中抽取的随机变量,每个概率p = 0.5:d(X,Y)~B(n,0.5)。
预期为0.5×n。
其标准偏差为0.5×√n。
答案 2 :(得分:0)
如果以0或0的概率1/2独立绘制位,则位置k的一致性可以取决于第一个字符串的k th 位置的结果 - 无论是零还是一,第二个字符串的匹配概率为1/2。这使得p = 1/2的逐位分布Bernoulli。汉明距离是这些伯努利结果的总和,并且n个独立伯努利的总和具有binomial(n,p)分布 - 这是精确的结果。您的实验应该产生n / 2的平均值,并且np(1-p)或n / 4的方差。 Central Limit Theorem告诉我们二项式分布将收敛到正态分布,因为n - >无穷。一个工程经验法则是,当np> n时,近似将足够好。 10和n(1-p)> 10。