如何在R中添加行时在for循环中对数据集的所有变量应用回归

时间:2016-11-18 00:06:26

标签: r for-loop dataset regression

这是我所知道的一个长期问题,但请耐心等待。

我有一个这种形式的数据集:

    head(TRAINSET)
         X1        X2        X3      X4      X5    X6    X7     X8    X9     X10     X11    X12     X13        X14        Y
1 -2.973012 -2.956570 -2.386837 -0.5861751 4e-04 0.44 0.0728 0.0307 0.0354  0.0078  0.0047 0.0100 -0.0022   0.0038 -0.005200012
2 -2.937649 -2.958624 -2.373960 -0.5636891 5e-04 0.44 0.0718 0.0323 0.0351  0.0075  0.0028 0.0095 -0.0019   0.0000  0.042085781
3 -2.984238 -2.937649 -2.428712 -0.5555258 2e-04 0.43 0.0728 0.0329 0.0347  0.0088  0.0018 0.0092 -0.0019  -0.0076  0.004577122
4 -2.976535 -2.970053 -2.443424 -0.5331107 9e-04 0.47 0.0588 0.0320 0.0331  0.0253  0.0011 0.0092 -0.0170  -0.0076  0.010515970
5 -2.979631 -2.962549 -2.468805 -0.5108256 6e-04 0.46 0.0613 0.0339 0.0333 -0.0005 -0.0006 0.0090  0.0060  -0.0058  0.058487141
6 -3.030536 -2.979631 -2.528079 -0.5024574 3e-04 0.43 0.0562 0.0333 0.0327  0.0109 -0.0006 0.0093 -0.0120   0.0000 -0.022896759

这是我的火车套装,它是300排。剩余的700行是测试集。我想要完成的是:

  1. 对于每个列,拟合此形式的线性模型:Y~X1。
  2. 使用创建的模型,通过使用测试集的第一个X1来获得Y的预测值。
  3. 之后,取Test组的第一行并将其rbind到Train组(现在Train组为301行)。
  4. 使用测试集中的第二行X1预测Y的值。
  5. 重复测试集的剩余699行。
  6. 将其应用于数据集的所有剩余变量(X2,...,X14)。
  7. 当我应用我为每个变量专门制作的代码时,我已设法产生准确的结果:

    fittedvaluess<-NULL   #empty set to fill
    for(i in 1:nrow(TESTSET)){      #beggin iteration over the rows of Test set 
      TRAINSET<-rbind(TRAINSET,TESTSET[i,]) #add the rows to the train set
      LM<-lm(Y~X1,TRAINSET)               #fit the evergrowing OLS    
      predictd<-predict(LM,TESTSET[i+1,],type = "response") #get the predicted value
      fittedvaluess<-cbind(fittedvaluess,predictd) #get the vector of the predicted values
      print(cbind(i,length(TRAINSET$LHS),length(TRAINSET$DP),nrow(TRAINSET))) #to make sure it works
    }
    

    但是,我希望将其自动化,然后在列上重复它。我做了这个:

    data<-TRAINSET #cause every time i had to remake the trainset
    fittedvaluesss<-NULL          
    for(i in 1:nrow(TESTSET){          #begin iteration on rows of Testset
      data<-rbind(data,TESTSET[i,])    # rbind the rows to the Trainset called data
      for(j in 1:ncol(TESTSET){        #iterate over the columns
        LM<-lm(data$LHS~data[,j],data)  #fit OLS
        predictd<-predict(LM,TESTSET[i+1,j],type = "response") #get the predicted value
        fittedvaluesss<-cbind(fittedvaluesss,predictd) #derive the predicted value
        print(c(i,j)) #make sure it works
      }
    }
    

    遗憾的是,结果是错误的:拟合值是一个巨大的矩阵:

     dim(fittedvaluesss)
    [1] 2306 3167 #Stopped around the middle of its run
    

    哪个没有任何意义。我甚至为

    运行它
    i in 1:3
    and
    j in 1:3 
    

    并且矩阵仍然非常庞大。我已经尝试过从列开始迭代并遍历这些行。完全相同的错误结果。出于某种原因,在每次运行中,我从PREDICT函数获得至少362个值。我真的很困惑这个问题。

    非常欢迎任何帮助。

    编辑1:这也被称为财务中的RECURSIVE FORECASTING方法。这是一种从当前数据集中拟合模型预测未来值的方法。

2 个答案:

答案 0 :(得分:1)

考虑使用外循环中的列和内循环中的行来反转循环逻辑。另外,尝试嵌套的apply函数,它返回比for循环更符合您需求的结构。具体来说,内部vapply()返回每个迭代列的所有testset预测值的数值向量。然后外部sapply()将每个返回的向量绑定到矩阵的列。

最终,fittedvaluess是一个维度为TESTSET nrow X TESTSET ncol的矩阵。另外请注意,外部循环会遗漏最后一列,因为您不在Y上回退Y.

fittedvaluess <- sapply(1:(ncol(TESTSET)-1), function(c){

  col <- names(TESTSET)[[c]]                     # RETRIEVE COLUMN NAME FOR LM FORMULA

  predictvals <- vapply(1:nrow(TESTSET), function(r){      
    TRAINSET <- rbind(TRAINSET, TESTSET[1:r,])   # BINDING ROWS ON AND PRIOR TO CURRENT ROW
    LM <- lm(paste0("Y~", col), TRAINSET)        # CONCATENATED STRING FORMULA
    predictd <- predict(LM, TESTSET[r+1,], type="response")
  }, numeric(1))

})

为什么要开玩笑和vapply?

sapply()vapply()都是lapply()的包装器。 sapply() s 实施lapply)可以返回向量或矩阵,vapply() v erified lapply)允许您专门选择返回的输出--vector,list,matrix--以及类型和长度。所以vapply需要第三个参数来指定这样的标准。在这里,我们选择一个长度(或一个对象)的数字向量:numeric(1)。由于此预先规范,vapply()在某些情况下往往比lapply()运行得更快。如果我们只选择通用lapply(),我们需要运行列表输出的各种转换和转换以与矩阵输出对齐。在某种程度上,我们可以完成嵌套的vapply()循环!

答案 1 :(得分:0)

使用下面的原始代码的次要版本,除了我没有使用predict

#EXPAND IT INTO DOING SO IN ALL COLUMNS
data<-TRAINSET
fittedvaluesss<-NULL
for(i in 1:nrow(TESTSET)){ #go each row
  data<-rbind(data,TESTSET[i,]) #update the dataset
  for(j in 1:ncol(TESTSET)){ #repead for each column the following
    LM<-lm(data$LHS~data[,j])   #OLS reg
    predictd<-coef(LM)[1]+coef(LM)[2]*TESTSET[i+1,j] #Simply apply the formula yourself A+Bx for each new iteration
    #predict(LM,TESTSET[i+1,j],type = "response")
    print(length(predictd)) #makes sure it is ONE value
    fittedvaluesss<-c(fittedvaluesss,predictd)
    print(c(i,j))
  }
}
matrixa<-matrix(fittedvaluesss,15,648) #put the values in a matrix: Note that the Ypreds are in every row
matrixa<-t(matrixa) #transpose in order to have each Ypred from a var in a column

这个工作的原因是,每次迭代的预测函数返回一个大小为361x15的小矩阵(我的初始代码中的 ),这是一次迭代。因此我删除了预测函数并使用了系数本身。这似乎返回了正确的预测。