标签: random
我有一个包含对象x_1,...,x_N的数据集,并且对象x_i在数据中出现c_i次。我想从分布中有效地进行采样,因此对象x_i具有被选中的概率c_i / c,其中c = c_1 + ... + c_N。
这一定是一个众所周知的问题,但我无法为此找到一个好的算法。当N大约为几百万时,最有效的方法是什么?