循环进行数据集模拟

时间:2019-05-13 17:22:24

标签: r simulation exponential exponential-distribution

我希望获得有关R中以下问题的帮助。

我有以下代码可以根据指数分布生成30列数据集:

x0=0
xmax=8000
xout=3000
lambda=0.0002
n=1

  x1=x0+rexp(n,lambda)-xout
  x2=x1+rexp(n,lambda)-xout
  x3=x2+rexp(n,lambda)-xout
  x4=x3+rexp(n,lambda)-xout
  x5=x4+rexp(n,lambda)-xout
  x6=x5+rexp(n,lambda)-xout
  x7=x6+rexp(n,lambda)-xout
  x8=x7+rexp(n,lambda)-xout
  x9=x8+rexp(n,lambda)-xout
  x10=x9+rexp(n,lambda)-xout
  x11=x10+rexp(n,lambda)-xout
  x12=x11+rexp(n,lambda)-xout
  x13=x12+rexp(n,lambda)-xout
  x14=x13+rexp(n,lambda)-xout
  x15=x14+rexp(n,lambda)-xout
  x16=x15+rexp(n,lambda)-xout
  x17=x16+rexp(n,lambda)-xout
  x18=x17+rexp(n,lambda)-xout
  x19=x18+rexp(n,lambda)-xout
  x20=x19+rexp(n,lambda)-xout
  x21=x20+rexp(n,lambda)-xout
  x22=x21+rexp(n,lambda)-xout
  x23=x22+rexp(n,lambda)-xout
  x24=x23+rexp(n,lambda)-xout
  x25=x24+rexp(n,lambda)-xout
  x26=x25+rexp(n,lambda)-xout
  x27=x26+rexp(n,lambda)-xout
  x28=x27+rexp(n,lambda)-xout
  x29=x28+rexp(n,lambda)-xout
  x30=x29+rexp(n,lambda)-xout

我有三个疑问:

1-有没有办法以简化形式编写此函数?

2-此行(30列)需要模拟10,000次。如何循环执行此操作?

3-每个像元(x1,x2,x3 ...)的值必须限制为x0和xmax(0-8000)的间隔。该怎么做?

3 个答案:

答案 0 :(得分:1)

  
      
  1. 有什么办法可以简化形式编写此函数?
  2.   

我会这样做。相当确定这是等效的。

ncol = 30

row = rexp(ncol, lambda)
row = cumsum(row) - xout * (1:ncol)
  
      
  1. 此行(30列)需要模拟10,000次。如何循环执行此操作?
  2.   

对以上代码使用replicate

sim_data = t(replicate(10000, {
  row = rexp(ncol, lambda)
  row = cumsum(row) - xout * (1:ncol)
}))

replicate给出10000列和30行。我们使用t()将其转置为10000行30列。

  
      
  1. 每个像元(x1,x2,x3 ...)的值必须限制在x0和xmax(0-8000)之间。该怎么做?
  2.   

使用pmin()pmax()。不知道要在累积求和之前还是之后进行此操作...

sim_data = t(replicate(10000, {
  row = rexp(ncol, lambda)
  row = cumsum(row) - xout * (1:ncol)
  row = pmax(0, row)
  row = pmin(xmax, row)
  row
}))

答案 1 :(得分:1)

这取决于您要对超过8000的值执行的操作。这是一个只接受这些值并使用模运算符将它们包装起来的解决方案。

library(tidyverse)

test <- data.frame(x0 = rep(0, n))
for (i in 1:30) {
  new_col <- sym(paste0("x", i))
  old_col <- sym(paste0("x", i - 1))
  test <- test %>% 
    mutate(!!new_col := (!!old_col + rexp(n, lambda) - xout) %% xmax)
}

我不知道您对整洁和整洁的评估是否熟悉,在这里我已经广泛使用过。 !!运算符与sym()结合使用,将变量名称转换为实际变量。 %>%运算符将数据从一个函数“管道”到下一个函数。仅当您要在左侧使用:=进行分配时,才需要!!运算符。

我认为这是我第一次真正尝试在StackOverflow上发布答案,所以对我容易! :)

答案 2 :(得分:0)

由于我对R自己还很陌生,所以我认为尝试将其写出是一种很好的做法。也许不是最有效的代码,但是它可以工作:

xmax <- 8000
xout <- 3000
lambda <- 0.0002
n <- 1
iterations <- 30

df <- data.frame(matrix(ncol = 31, nrow = iterations))
names(df) <- c(paste("x", 0:30, sep=""))

for (j in 1:iterations) {
  df$x0[j] <- 0
  df$x1[j] <- df$x0[j] + rexp(n,lambda)-xout
  if (df$x1[j] < 0) {
    df$x1[j] <- 0
  }
  if (df$x1[j] > 8000) {
    df$x1[j] <- 8000
  }
  for (i in 3:31) {
    df[j,i] <- df[j, i-1] + rexp(n,lambda)-xout
    if (df[j,i] < 0) {
      df[j,i] <- 0
    }
    if (df[j,i] > 8000) {
      df[j,i] <- 8000
    }
  }
}

您可以将iterations更改为30000,出于测试目的,我使用了30。同样,我也不知道您是否要在下一次迭代之前或之后限制为08000,我之前已经做过。