我们可以通过检查其子集来得出一个可能不是随机的集合吗?

时间:2017-03-29 03:33:22

标签: testing random numbers set subset

套装A包含1000个数字。我检查了这一组中有一半的数字是偶数。

我从集合A中提取子集B如下:集合A中以1开头的任何数字也在集合B中。(B中的所有数字都以1开头)。

我检查过B组中超过一半的数字都是偶数。

A中的一半数字甚至是这样我们对B的期望是否相同?但是超过一半的B都是偶数。那么可以得出结论A集不是随机的吗?

如果B的60%是偶数,我们还能得出结论A不是随机产生的吗?

如果B的70%是奇数?

1 个答案:

答案 0 :(得分:1)

这完全取决于样本的大小。

从基本概率来看,如果p是从二元试验中获得“成功”(你关注的结果)的概率,则q =(1-p)是获得“失败”的概率(替代结果)。设n为试验次数。如果试验是独立的,则结果X的数量具有参数n和p的binomial distribution,并且p-hat = X / n是p的无偏估计。 p-hat的均值和方差分别为p和pq / n,对于足够大的样本大小,分布收敛于高斯(钟形曲线)。基于此,只要p和q足够大于0,我们可以说在重复实验中,其中约95%应落在真实均值的1.96 * sqrt(pq / n)的距离内。该距离称为误差范围(ME)。

你猜想p = 1/2。因此,您的误差范围是ME = 1.96 * sqrt(pq / n)= 0.98 / sqrt(n)。您可以反转以找出获得特定ME所需的样本量:n = ceiling((0.98 / ME) 2 )。

插入一些特定的错误边缘:

  • ME = 0.20 ==> n = 25(相信高斯收敛的边界线)
  • ME = 0.10 ==> n = 97
  • ME = 0.05 ==> n = 385
  • ME = 0.03 ==> n = 1068
  • ME = 0.01 ==> n = 9604

换句话说,您希望误差范围越小,所需的样本量越大,采样要求就会以二次方式增长。

最后两个与政治民意调查有关。通常采用大约1000的样本大小并报告估计误差幅度为±3%。人们会直观地喜欢±1%,但这需要9倍的抽样,并且被认为不符合成本效益。

根据你的子集的大小,回过头来解决这个问题,你可以做一个关于p = 1/2的猜测是多么合理的概率陈述,但这需要数百或数千个值来制作这是一个紧张的约束。

另外,请注意,非均匀或非独立与非随机不同。您尝试执行的测试是针对选择位的一致性,并且不会告诉您其他位以及数据的独立性。