在Matlab中从任意离散概率密度函数生成随机样本

时间:2015-07-28 00:20:51

标签: matlab function probability sampling probability-density

我在Matlab中将任意概率密度函数离散化为矩阵,这意味着对于每对x,y,概率存储在矩阵中: A(x,y)=概率

这是一个100x100的矩阵,我希望能够从这个矩阵中生成二维(x,y)的随机样本,并且如果可能的话,还能够计算出该矩阵的平均值和其他矩。 PDF。我想这样做是因为在重新采样之后,我想将样本拟合成近似的高斯混合模型。

我一直在寻找各处,但我没有发现任何具体的内容。我希望你能帮助我。

谢谢。

2 个答案:

答案 0 :(得分:4)

如果你确实有一个由A定义的离散可能密度函数(而不是仅由A描述的连续概率密度函数),你可以"作弊"将2D问题转化为一维问题。

%define the possible values for the (x,y) pair
row_vals = [1:size(A,1)]'*ones(1,size(A,2));  %all x values
col_vals = ones(size(A,1),1)*[1:size(A,2)];  %all y values

%convert your 2D problem into a 1D problem
A = A(:);
row_vals = row_vals(:);
col_vals = col_vals(:);

%calculate your fake 1D CDF, assumes sum(A(:))==1
CDF = cumsum(A); %remember, first term out of of cumsum is not zero

%because of the operation we're doing below (interp1 followed by ceil)
%we need the CDF to start at zero
CDF = [0; CDF(:)];

%generate random values
N_vals = 1000;  %give me 1000 values
rand_vals = rand(N_vals,1);  %spans zero to one

%look into CDF to see which index the rand val corresponds to
out_val = interp1(CDF,[0:1/(length(CDF)-1):1],rand_vals); %spans zero to one
ind = ceil(out_val*length(A));

%using the inds, you can lookup each pair of values
xy_values = [row_vals(ind) col_vals(ind)];

我希望这有帮助!

芯片

答案 1 :(得分:1)

我不相信matlab具有内置功能,可以生成具有任意分布的多变量随机变量。事实上,单变量随机数也是如此。但是虽然后者可以基于累积分布函数容易地生成,但是多变量分布不存在CDF,因此生成这样的数字要麻烦得多(主要问题是2个或更多个变量具有相关性的事实)。所以这部分问题远远超出了本网站的范围。

由于半个答案总比没有答案好,所以这里是如何使用matlab以数字方式计算均值和更高时刻的:

%generate some dummy input
xv=linspace(-50,50,101);
yv=linspace(-30,30,100);
[x y]=meshgrid(xv,yv);

%define a discretized two-hump Gaussian distribution
A=floor(15*exp(-((x-10).^2+y.^2)/100)+15*exp(-((x+25).^2+y.^2)/100));
A=A/sum(A(:)); %normalized to sum to 1

%plot it if you like
%figure;
%surf(x,y,A)

%actual half-answer starts here    

%get normalized pdf
weight=trapz(xv,trapz(yv,A));
A=A/weight; %A normalized to 1 according to trapz^2

%mean
mean_x=trapz(xv,trapz(yv,A.*x));
mean_y=trapz(xv,trapz(yv,A.*y));

因此,关键是你可以使用两次连续调用trapz在矩形网格上执行双积分。这允许您计算与网格具有相同形状的任何数量的积分,但缺点是矢量分量必须独立计算。如果您只想计算可以使用xy进行参数化的事物(它们与您的网格大小自然相同),那么您可以相处而无需进行任何额外的思考。

您还可以为集成定义一个函数:

function res=trapz2(xv,yv,A,arg)

if ~isscalar(arg) && any(size(arg)~=size(A))
    error('Size of A and var must be the same!')
end

res=trapz(xv,trapz(yv,A.*arg));

end

这样你可以计算像

这样的东西
weight=trapz2(xv,yv,A,1);
mean_x=trapz2(xv,yv,A,x);

注意:我在示例中使用101x100网格的原因是对trapz的双重调用应按正确的顺序执行。如果您在调用中交换xvyv,由于与A的定义不一致,您会得到错误的答案,但如果A是正方形则不会显而易见。我建议在开发阶段避免对称量。