使用IFELSE从多个概率生成数据

时间:2012-09-09 23:51:27

标签: r

我在R中编写了一些代码,我需要根据特定条件生成一个符合特定条件的数据集。

我有三个概率 A - 0.423,B - 0.324和C-0.253。

我想运行随机生成的样本runif(50, 0, 1)

如果生成的数字介于0和0.423之间,我想从rnorm(50, 25, 4)生成一个值, 如果它介于0.423和0.747之间,我想从rnorm(50, 28, 4.5)生成一个值 最后,如果它介于0.747和1之间,我想从rnorm(50, 30, 5)生成一个值。

我试图使用某种复合ifelse函数来做这件事,但无济于事。

有什么建议吗?

干杯

2 个答案:

答案 0 :(得分:8)

如您所料,可以使用ifelse

完成此操作
u = runif(50, 0, 1)
values = ifelse(u < .423, rnorm(50, 25, 4),
                ifelse(u < .747, rnorm(50, 28, 4.5),
                       rnorm(50, 30, 5)))

这是有效的,因为ifelse可以在向量上运行。

您可能更喜欢这种方法,特别是如果您最终有三个以上的部分将其分解为:

means = c(25, 28, 30)
vars = c(4, 4.5, 5)
probs = c(.423, .324, .253)
samples = sample(1:3, 50, replace=TRUE, prob=probs)
values = rnorm(50, means[samples], vars[samples])

答案 1 :(得分:3)

您可以使用switchfindInterval以及do.callmapply的组合。

您使用的可能取决于您希望输出排序的方式

设置开关

A <- 0.423
B <- 0.324
C <- 0.253
interval <- c(0, cumsum(c(A, B, C)))
random <- runif(50, 0, 1)

rnorm_vals <- function(interval) {
    switch(interval, `1` = list(mean = 25, sd = 4), `2` = list(mean = 25, sd = 4.5), 
        `3` = list(mean = 30, sd = 5))


}

intervals <- findInterval(random, interval, rightmost.closed = T, all.inside = T)



how_many <- table(intervals)

rnorm_calls <- lapply(names(how_many), function(nm) {
    do.call(rnorm, c(n = how_many[[nm]], rnorm_vals(nm)))
})
rnorm_calls

## [[1]]
##  [1] 28.38 18.54 20.52 25.79 27.50 36.86 23.40 20.82 23.75 30.64 27.62
## [12] 20.23 24.21 22.21 20.16 21.73 29.96 27.28 25.68
## 
## [[2]]
##  [1] 24.91 30.90 30.35 26.08 18.74 27.33 23.29 33.80 30.37 27.49 36.78
## [12] 23.03 24.66 21.46 22.62 33.32 16.16
## 
## [[3]]
##  [1] 30.62 29.50 31.19 25.07 24.68 33.25 40.04 33.42 30.81 21.48 32.79
## [12] 25.56 30.98 30.16
## 


# or (will be sorted by )
unlist(rnorm_calls)

##  [1] 28.38 18.54 20.52 25.79 27.50 36.86 23.40 20.82 23.75 30.64 27.62
## [12] 20.23 24.21 22.21 20.16 21.73 29.96 27.28 25.68 24.91 30.90 30.35
## [23] 26.08 18.74 27.33 23.29 33.80 30.37 27.49 36.78 23.03 24.66 21.46
## [34] 22.62 33.32 16.16 30.62 29.50 31.19 25.07 24.68 33.25 40.04 33.42
## [45] 30.81 21.48 32.79 25.56 30.98 30.16

使用mapply

或者你可以扫过并获得对rnorm的单次调用

rnorm_details <- lapply(intervals, rnorm_vals)
means <- sapply(rnorm_details, `[[`, "mean")
sds <- sapply(rnorm_details, `[[`, "sd")

mapply(rnorm, n = 1, sd = sds, mean = means)

##  [1] 24.70 24.33 36.22 21.87 25.40 18.39 23.54 26.90 25.81 17.35 19.45
## [12] 18.53 33.88 27.51 21.70 25.06 24.17 35.08 28.24 21.88 29.90 28.18
## [23] 29.08 24.54 30.43 29.27 28.79 22.09 20.77 18.82 21.73 22.99 26.69
## [34] 27.73 26.66 25.32 29.95 30.77 34.89 28.55 22.95 32.45 36.11 29.72
## [45] 39.23 22.39 26.78 23.36 18.06 33.39