我正在研究一个模拟系统。我将很快获得实验数据(直方图),用于几个模拟输入的实际值分布。
当模拟运行时,我希望能够生成与测量分布匹配的随机值。我宁愿这样做而不存储原始直方图。
有什么好方法编辑:输入数据是几种不同类型事件的事件持续时间。我希望不同的类型具有不同的分布函数。
答案 0 :(得分:19)
至少有两个选择:
来自现代物理计算由William R. Gibbs撰写:
总是可以在数字上集成[函数]并反转[ cdf ] 但这通常不是很令人满意,特别是如果 pdf 正在改变 迅速。
您实际上构建了一个表,将范围[0-1)
转换为目标分布中的适当范围。扔掉你平常的(高质量的)PRNG并用桌子翻译。它很麻烦,但清晰,可行,而且完全一般。
标准化目标直方图,然后
x
)。再次,简单明了但清晰而有效。分布很慢,概率非常低(长尾峰)。
使用这两种方法,可以使用分段多项式拟合或样条来近似数据,以便在不需要步进函数直方图的情况下生成平滑曲线 - 但是将其留待以后这可能是过早的优化。
特殊情况下可能存在更好的方法。
所有这些都非常标准,如果我需要更多详细信息,它应该出现在任何数字分析教科书中。
答案 1 :(得分:2)
有关此问题的更多信息将非常有用。例如,直方图是什么类型的值?它们是绝对的(例如,颜色,字母)还是连续的(例如,高度,时间)?
如果直方图超出分类数据,我认为除非类别之间存在许多相关性,否则可能难以对分布进行参数化。
如果直方图超过连续数据,您可能会尝试使用高斯混合物拟合分布。也就是说,尝试使用$ \ sum_ {i = 1} ^ n w_i N(m_i,v_i)$拟合直方图,其中m_i和v_i是均值和方差。然后,当你想要生成数据时,你首先从1..n中采样i,其概率与权重w_i成比例,然后像任何高斯一样采样x~n(m_i,v_i)。
无论哪种方式,您可能希望详细了解mixture models。
答案 2 :(得分:1)
因此,为了生成给定的概率分布,我想要的是Quantile Function,它是 cumulative distribution function,正如@dmckee所说。
问题变成:生成和存储描述给定连续直方图的分位数函数的最佳方法是什么?我有一种感觉,答案将在很大程度上取决于输入的形状 - 如果它遵循任何类型的模式,那么应该在最一般的情况下进行简化。我会在这里更新。
编辑:
本周我进行了一次谈话,让我想起了这个问题。如果我放弃将直方图描述为方程式,并且只存储表格,我可以在O(1)时间内进行选择吗?事实证明,你可以在不损失精度的情况下,以O(N lgN)施工时间为代价。
创建N个项目的数组。对阵列的均匀随机选择将找到具有概率1 / N的项目。对于每个项目,存储实际应该选择此项目的命中部分,以及如果不存在该项目将选择的另一项目的索引。
加权随机抽样,C实现:
//data structure
typedef struct wrs_data {
double share;
int pair;
int idx;
} wrs_t;
//sort helper
int wrs_sharecmp(const void* a, const void* b) {
double delta = ((wrs_t*)a)->share - ((wrs_t*)b)->share;
return (delta<0) ? -1 : (delta>0);
}
//Initialize the data structure
wrs_t* wrs_create(int* weights, size_t N) {
wrs_t* data = malloc(sizeof(wrs_t));
double sum = 0;
int i;
for (i=0;i<N;i++) { sum+=weights[i]; }
for (i=0;i<N;i++) {
//what percent of the ideal distribution is in this bucket?
data[i].share = weights[i]/(sum/N);
data[i].pair = N;
data[i].idx = i;
}
//sort ascending by size
qsort(data,N, sizeof(wrs_t),wrs_sharecmp);
int j=N-1; //the biggest bucket
for (i=0;i<j;i++) {
int check = i;
double excess = 1.0 - data[check].share;
while (excess>0 && i<j) {
//If this bucket has less samples than a flat distribution,
//it will be hit more frequently than it should be.
//So send excess hits to a bucket which has too many samples.
data[check].pair=j;
// Account for the fact that the paired bucket will be hit more often,
data[j].share -= excess;
excess = 1.0 - data[j].share;
// If paired bucket now has excess hits, send to new largest bucket at j-1
if (excess >= 0) { check=j--;}
}
}
return data;
}
int wrs_pick(wrs_t* collection, size_t N)
//O(1) weighted random sampling (after preparing the collection).
//Randomly select a bucket, and a percentage.
//If the percentage is greater than that bucket's share of hits,
// use it's paired bucket.
{
int idx = rand_in_range(0,N);
double pct = rand_percent();
if (pct > collection[idx].share) { idx = collection[idx].pair; }
return collection[idx].idx;
}
编辑2: 经过一番研究,我发现甚至可以在O(N)时间内进行施工。通过仔细跟踪,您无需对数组进行排序即可找到大型和小型垃圾箱。 Updated implementation here
答案 3 :(得分:0)
如果您需要使用加权分布的离散点来提取大量样本,请查看an answer to a similar question。
但是,如果您需要使用直方图来近似某些连续随机函数,那么您最好的选择可能是dmckee的数值积分答案。或者,您可以使用别名,并将点存储在左侧,并在两点之间选择一个统一的数字。
答案 4 :(得分:0)
从直方图(原始或缩小)中进行选择, Walker's alias method 快速而简单。
答案 5 :(得分:-3)