从随机数据子集引导回归系数

时间:2017-07-13 02:46:36

标签: r bootstrapping least-squares

我正在尝试使用IsoplotR包中的yorkfit()函数对两个变量执行回归校准。我想从这个模型估计自举斜率系数的置信区间;但是,我不想使用下面的典型引导方法,而是一次只对75%的数据(随机选择)执行迭代。到目前为止,使用以下示例数据,我设法引导yorkfit()函数的斜率系数结果:

library(boot)
library(IsoplotR)

X <- c(9.105,8.987,8.974,8.994,8.996,8.966,9.035,9.215,9.239,
         9.307,9.227,9.17, 9.102)
Y <- c(28.1,28.9,29.6,29.5,29.0,28.8,28.5,27.3,27.1,26.5,
         27.0,27.5,28.4)
n <- length(X)
sX <- X*0.02
sY <- Y*0.05
rXY <- rep(0.8,n)
dat <- cbind(X,sX,Y,sY,rXY)
fit <- york(dat)

boot.test <- function(data,indices){
    sample = data[indices,]
    mod = york(sample)
    return (mod$b)
}

result <- boot(data=dat, statistic = boot.test, R=1000) 
boot.ci(result, type = 'bca')

......但我不确定从哪里开始。任何有助于我朝着正确方向前进的帮助将不胜感激。我是R的新手,所以如果问题含糊不清,我会道歉。谢谢。

1 个答案:

答案 0 :(得分:0)

基于package documentation,您应该能够使用ran.gen参数,使用sim =&#34;参数&#34;来使用自定义函数进行采样。在这种情况下,样本是随机选择的总观测值的一定百分比。像下面这样的东西应该达到你想要的效果:

result <- boot(
    data=dat, 
    statistic =boot.test, 
    R=1000, 
    sim="parametric",
    ran.gen=function(data, percent){
        n=nrow(data)
        indic=runif(n)
        data[rank(indic, ties.method="random")<=round(n*percent,0),]
    }, 
    percent=0.75)