我想在numpy中运行一个相对简单的随机抽奖,但我找不到表达它的好方法。 我认为最好的方法是将其描述为从没有替换的骨灰盒中抽出来。我有一个带有k种颜色的骨灰盒,以及各种颜色的n_k球。我想绘制m球,并知道我拥有的每种颜色的球数。
我目前的尝试
np.bincount(np.random.permutation(np.repeat(np.arange(k), n_k))[:m], minlength=k)
这里,n_k
是一个长度为k的数组,其中包含球的数量。
似乎相当于
np.bincount(np.random.choice(k, m, n_k / n_k.sum(), minlength=k)
哪个好一点,但仍然不太好。
答案 0 :(得分:9)
您想要的是multivariate hypergeometric distribution的实现。我不知道那个在numpy或scipy中,但它可能已经存在于某个地方。
您可以使用重复调用numpy.random.hypergeometric
来实现它。这是否比你的实现更有效取决于有多少颜色和每种颜色的球数。
例如,这是一个脚本,它从包含三种颜色(红色,绿色和蓝色)的urn打印绘图结果:
from __future__ import print_function
import numpy as np
nred = 12
ngreen = 4
nblue = 18
m = 15
red = np.random.hypergeometric(nred, ngreen + nblue, m)
green = np.random.hypergeometric(ngreen, nblue, m - red)
blue = m - (red + green)
print("red: %2i" % red)
print("green: %2i" % green)
print("blue: %2i" % blue)
示例输出:
red: 6
green: 1
blue: 8
以下函数概括了选择m
球,给定数组colors
保存每种颜色的数量:
def sample(m, colors):
"""
Parameters
----------
m : number balls to draw from the urn
colors : one-dimensional array of number balls of each color in the urn
Returns
-------
One-dimensional array with the same length as `colors` containing the
number of balls of each color in a random sample.
"""
remaining = np.cumsum(colors[::-1])[::-1]
result = np.zeros(len(colors), dtype=np.int)
for i in range(len(colors)-1):
if m < 1:
break
result[i] = np.random.hypergeometric(colors[i], remaining[i+1], m)
m -= result[i]
result[-1] = m
return result
例如,
>>> sample(10, [2, 4, 8, 16])
array([2, 3, 1, 4])
答案 1 :(得分:0)
以下内容应该有效:
def make_sampling_arr(n_k):
out = [ x for s in [ [i] * n_k[i] for i in range(len(n_k)) ] for x in s ]
return out
np.random.choice(make_sampling_arr(n_k), m)