我想用R中的Pareto尾部从对数正态分布生成一个样本。有人可以帮助我吗?感谢。
答案 0 :(得分:8)
我不确定这是你在寻找什么,但是关于Double Pareto Log-normal Distributions这个话题还有相当多的文献,或者说有关dPlN。请参阅this,this和this。这些用于模拟从收入和收入分配到油田规模到internet traffic的所有内容。
如果不您正在寻找什么,请告诉我,我会删除该帖子。
您问如何从dPlN生成随机样本。从理论上讲,可以通过从均匀分布U[0,1]
生成随机样本并使用目标分布的逆CDF对其进行变换,从任意分布生成随机样本。
首先,我们需要dPlN的PDF,然后我们将其整合以找到CDF,然后我们将其反转以找到逆CDF。 dPlN的PDF在方程8和9中的first reference中给出:
其中α和β是位置参数,ν和τ 2 是对数正态分布的均值和方差。 Φ和Φ c 是N [0,1]的CDF和互补CDF。粗略地,较小的α和β意味着较长尾,ν影响峰的位置,τ影响峰的宽度。
所以在R中,我们计算dPlN的PDF,CDF和逆CDF如下:
f = function(x,alpha, beta, nu, tau) { # probability density of dPlN
A = function(theta, nu, tau) exp(theta*nu +(alpha*tau)^2/2)
c = alpha*beta/(alpha+beta)
z.alpha = (log(x) - nu - alpha*tau^2)/tau
z.beta = (log(x) - nu + beta*tau^2)/tau
t.alpha = x^-(alpha+1)*A(alpha,nu,tau)*pnorm(z.alpha)
t.beta = x^(beta-1)*A(-beta,nu,tau)*(1-pnorm(z.beta))
return(c*(t.alpha + t.beta))
}
F = function(x,alpha,beta,nu,tau) { # cumulative density function of dPlN
ifelse(x > 1e4, 1, integrate(f,0.001,x,alpha,beta,nu,tau)$value)}
F = Vectorize(F, vectorize.args="x")
F.inv = function(y, alpha,beta,nu,tau){ # inverse CDF of dPlN
uniroot(function(x, alpha,beta,nu,tau){F(x, alpha,beta,nu,tau)-y},
interval=c(0,1e6),alpha,beta,nu,tau)$root
}
F.inv = Vectorize(F.inv, vectorize.args="y")
x=seq(0,50,length.out=1000)
y=seq(0,.995,length.out=1000)
par(mfrow=c(1,3))
plot(x,f(x,2,2,2,1),type="l",main="f(x)")
plot(x,F(x,2,2,2,1),type="l",main="CDF of f(x)")
plot(y,F.inv(y,2,2,2,1),type="l",main="Inverse CDF of f(x)")
最后,我们使用F.inv(...)
生成dPlN的随机变量,并绘制结果以证明随机样本确实遵循预期的概率分布。
# random sample from dPlN (double Pareto Lognormal distribution)
X = runif(1000,0,1) # random sample from U[0,1]
Z = F.inv(X,2,2,2,1)
par(mfrow=c(1,1))
hist(Z, breaks=c(seq(min(x),max(x),length=50),Inf),
xlim=range(x), freq=FALSE)
lines(x,f(x,2,2,2,1),main="Density function",
xlim=range(x), col="red", lty=2)
免责声明此代码尚未针对alpha,beta,nu和tau的所有可能值进行测试,因此无法保证它在所有情况下都能正常运行。