使用R的蒙特卡洛模拟:排序和意义问题

时间:2019-05-24 07:44:23

标签: r montecarlo significance

我正在尝试使用蒙特卡洛模拟法实施以下统计检验。此方法基于以下论文: https://journals.ametsoc.org/doi/full/10.1175/JCLI4217.1

详细信息:

以上文章使用蒙特卡洛模拟计算了1961-1983年和1984-2000年两个周期的热带气旋通过频率(非正态分布)的均值差异的显着性。

这应该是两尾测试。

提供了以下步骤:

  

1)。首先,准备了9999个随机分类的40年台风通过频率时间序列。

     

2)。计算前23年值(1961-1983)的平均值减去后17年值的平均值。

     

3)。从10000个样本中原始差值的等级中,估计出显着性水平。

这是我到目前为止所拥有的

假设我有以下数据集。列表示每年的计数,而各行表示经纬度坐标(为简化起见,此处为数字)。

A<-matrix(floor(runif(100,min=0,max=20)),nrow=5,ncol=40)
colnames(A)<-c("X1961","X1962","X1963","X1964","X1965","X1966","X1967","X1968","X1969","X1970","X1971","X1972","X1973","X1974","X1975","X1976","X1977","X1978","X1979","X1980","X1981","X1982","X1983","X1984","X1985","X1986","X1987","X1988","X1989","X1990","X1991","X1992","X1993","X1994","X1995","X1996","X1997","X1998","X1999","X2000")

set.seed(1)
rand <- sample(nrow(A),9999,replace=TRUE)
A[rand,]

问题(已更新)

我对如何在R中正确执行此操作感到困惑。我应该对每行执行蒙特卡洛测试。因此,请连续执行以下操作:

A[rand[1],]

X1961 X1962 X1963 X1964 X1965 X1966 X1967 X1968 X1969 X1970 X1971 X1972 
X1973 
5    14    11    17    16    17    11     2     8     3    13    10     
1 
X1974 X1975 X1976 X1977 X1978 X1979 X1980 X1981 X1982 X1983 X1984 X1985 
X1986 
10    15     5     3     6    15    19     5    14    11    17    16    
17 
X1987 X1988 X1989 X1990 X1991 X1992 X1993 X1994 X1995 X1996 X1997 X1998 
X1999 
11     2     8     3    13    10     1    10    15     5     3     6    
15 
X2000 
19 

原始:

A[1,]

X1961 X1962 X1963 X1964 X1965 X1966 X1967 X1968 X1969 X1970 X1971 X1972 
X1973 
18     1     6     7     3    12    19     0    17    17     0    10    
16 
X1974 X1975 X1976 X1977 X1978 X1979 X1980 X1981 X1982 X1983 X1984 X1985 
X1986 
3     4     0    15     8    17     1    18     1     6     7     3    
12 
X1987 X1988 X1989 X1990 X1991 X1992 X1993 X1994 X1995 X1996 X1997 X1998 
X1999 
19     0    17    17     0    10    16     3     4     0    15     8    
17 
X2000 
1 

预期产量*

我想为此测试在原始矩阵中添加一个pvalue列。重要性测试应按行进行。当然,这可以通过使用apply()函数来实现。

问题

如何实现第三个条件? 另外,顺序是否对蒙特卡洛测试中的步骤1重要?

我觉得我在解释步骤1,是否应该为此使用copy()?像这样吗?

rand<-replicate(40,sample(nrow(A),9999,replace=T))

关于如何正确执行此操作的任何建议?

在此方面,我将不胜感激。

1 个答案:

答案 0 :(得分:1)

此代码应该可以解决您的问题。如果必须处理大量数据,可以很容易地将其与包“ foreach”和“ doParallel”并行化。此函数获取您的数据并为数据的两个图块制作nrep样本,然后取均值的差值。以此计算均值差的FDP,然后查看均值数据差的百分位数以得出p值。

  my.fun <- function(x,nrep = 1000,breakpoint){
    # x is the data
    # nrep is the amount of simulations
    # breakpoint is where the breakpoint is
    set.seed(12345)
    a_sim <- vector(mode = 'double', length = nrep)
    n <- length(x)
    for(i in 1:nrep){
      aux1 <- sample(x,size = breakpoint,replace = T)
      aux2 <- sample(x,size = n-breakpoint,replace = T)
      a_sim[i] <- abs(mean(aux1) - mean(aux2))
    }
    cum_dist_func <- ecdf(a_sim)
    p <- 1-cum_dist_func(abs(mean(x[1:breakpoint])-mean(x[(breakpoint+1):n])))

    return(p)
  }


  pvalue <- apply(X = A,MARGIN = 1,FUN = my.fun,breakpoint = 23 )
  A <- cbind(A,pvalue)