Question

我有一个我需要转移到正态分布的数据集。

首先，生成可重现的数据集。

df <- runif(500, 0, 100)

其次，定义一个函数。此功能将继续转换d.f.直到P> 0.05。转化的d.f.将生成并命名为y。

BoxCoxTrans <- function(y)    
{
    lambda <- 1
    constant <- 0
    while(shapiro.test(y)$p.value < 0.10) 
    {
        constant <- abs(min(y, na.rm = TRUE)) + 0.001
        y <- y + constant
        lambda <- powerTransform(y)$lambda
        y <- y ^ lambda
    }
    assign("y", y, envir = .GlobalEnv) 
}

第三，测试df

shapiro.test(df)

Shapiro-Wilk normality test

data:  df
W = 0.95997, p-value = 2.05e-10

因为P < 0.05，变换df

BoxCoxTrans(df)

然后它给我以下错误消息，

Error in qr.resid(xqr, w * fam(Y, lambda, j = TRUE)) : 
NA/NaN/Inf in foreign function call (arg 5)

我做错了什么？

Answer 1

您可以使用Box-Muller变换从随机均匀分布生成近似正态分布。这可能比Box-Cox转换更合适，其中AFAIK通常用于将偏斜分布转换为几乎正常的分布。

以下是应用于一组均匀分布的数字的Box-Muller变换的示例：

set.seed(1234)
size <- 5000
a <- runif(size)
b <- runif(size)
y <- sqrt(-2 * log(a)) * cos(2 * pi * b)
plot(density(y), main = "Example of Box-Muller Transformation", xlab="x", ylab="f(x)")
library(nortest)
#> lillie.test(y)
#
#   Lilliefors (Kolmogorov-Smirnov) normality test
#
#data:  y
#D = 0.009062, p-value = 0.4099
#
#> shapiro.test(y)
#
#   Shapiro-Wilk normality test
#
#data:  y
#W = 0.99943, p-value = 0.1301
#

enter image description here

希望这有帮助。

Answer 2

添加

 print(summary(y))

在while循环结束之前，观察您的计算是否爆炸。无论如何，重复应用Box-Cox是没有意义的，因为你从第一个应用程序中获得了转换参数的ML（类似）估计。此外，为什么您希望功率转换能够使均匀分布正常化？

约翰

R中的连续PowerTransform / BoxCox转换

2 个答案: