提前抱歉,因为我的问题比编程更多的是统计数据。但是,我需要进一步实施的答案。 考虑一下我们有N条记录,其中X条具有特定的特征。我们从N中随机选择n个记录(无需替换的采样)。在样本n中出现每个X记录的概率是多少?或者,当涉及到较小的一组n时,X会有多小?
例如:N = 40,000,000 X = 20,000 n = 25,000,000
答案 0 :(得分:0)
这不是Hypergeometric Distribution的例子吗?
随机变量X遵循超几何分布,如果其概率质量函数(pmf)由
给出P(X = k)= C(K,k)* C(N-K,n-k)/ C(N,n)
,其中