R:如何在数据帧列表中循环线性模型?

时间:2018-03-01 05:28:24

标签: r loops linear-regression

我有一个名为AllFramesCoeff的数据框列表。我想生成一个随机数,让我的数据帧列表引用该数字来引用一个随机数据帧,并在列表中的185个数据帧之一上使用for循环,用于lm的两个特定列模型。我希望它做1000次随机测试。

我还想将lm系数结果放在一个对象中,可能是一个向量。

我的计划是稍后返回并创建直方图,发行版和插入新列以重复它。

我尝试过的事情:

m <- matrix(0, ncol = 2)
CorrResults<- as.data.frame(m)
for (i in length(WaFramesCoeff)) function() {
  r <- sample(185, 1)
  CorrLM <-lm(  WaFramesCoeff[i]$ `Nights_&_Weekends_Min_Used`    ~  WaFramesCoeff[i]$ `Taxes,_Surcharges_and_Fees`    ,data=WaFramesCoeff[i]  )
  CorrResults[i,]<- CorrLM$Coeff
}

然后:

m <- matrix(0, ncol = 2)
CorrResults<- as.data.frame(m)

for (i in length(WaFramesCoeff)) {
  r <- sample(185, 1)
  function(x){
  CorrLM <-lm(  x$ `Nights_&_Weekends_Min_Used`    ~  x$ `Taxes,_Surcharges_and_Fees`    ,data=x  )
  }
  CorrResults[i,]<- CorrLM$Coeff
}

我知道这个网站更喜欢可重复的数据,所以我为缺乏它而道歉。我和同行无法弄清楚这一点;我确定它很明显,但我已经用尽了所有的知识。

修改

我走近了。但1000只中的每一只都向我展示了拦截。情节也只显示了一点,所以我显然没有做到这一点。

CorrResults <- matrix(0, 1,1000)

    for (i in 1:1000)  {
      d <- sample(WaFramesAll,1)
      w <- sapply(  d,  TestLM  )
      CorrResults[i]<- w
    }

1 个答案:

答案 0 :(得分:1)

让我们通过不同的方式来想象做这种事情。

首先,要知道for循环有它们的位置,如果正确完成它们可以和*apply函数一样快。虽然你对循环的使用在语法上是正确的,但有不同的方法可以使用它更有意义。您正尝试在列表的多个元素上运行一系列命令或函数。想象一下这个简单的计划:对于列表中的每个元素,取第一个元素然后加倍并将其平方:

invec <- list(c(21,22),c(23,24),c(25,26))
str(invec)
# List of 3
#  $ : num [1:2] 21 22
#  $ : num [1:2] 23 24
#  $ : num [1:2] 25 26
outvec <- replicate(length(invec), NULL) # preallocate same size
for (i in seq_along(invec)) {
  outvec[[i]] <- c(2*invec[[i]][1], invec[[i]][1]^2)
}
str(outvec)
# List of 3
#  $ : num [1:2] 42 441
#  $ : num [1:2] 46 529
#  $ : num [1:2] 50 625

看起来很简单。现在让我们看看如何使用*apply函数执行相同操作:

invec <- list(c(21,22),c(23,24),c(25,26))
outvec <- lapply(invec, function(a) c(2*a[1], a[1]^2))
str(outvec)
# List of 3
#  $ : num [1:2] 42 441
#  $ : num [1:2] 46 529
#  $ : num [1:2] 50 625

读取apply函数的方法是&#34;取向量invec,并在每个元素上调用此函数,将结果捕获到列表名称outvec&#34 ; 。该功能可以是&#34;匿名&#34; (就像它在这里),或者它可以是一个名为&#34;功能,如

lapply(invec, max)
# [[1]]
# [1] 22
#
# [[2]]
# [1] 24
#
# [[3]]
# [1] 26

那么这对您的采样问题有何帮助?让我分开另一秒。

您是否知道可以将矢量和列表任意索引?例如:

str(invec[c(1,3,2,3,2,3)])
# List of 6
#  $ : num [1:2] 21 22
#  $ : num [1:2] 25 26
#  $ : num [1:2] 23 24
#  $ : num [1:2] 25 26
#  $ : num [1:2] 23 24
#  $ : num [1:2] 25 26

有傻瓜,好的。让我们说我们想从这个非常短的列表中抓取1000个随机样本:

set.seed(3)
ind <- sample(length(invec), size=1000, replace=TRUE)
str(outvec[1:4])
# List of 4
#  $ : num 42
#  $ : num 46
#  $ : num 50
#  $ : num 46
outvec <- lapply(invec[ind], function(a) 2*a[1])
str(outvec[1:4])
# List of 4
#  $ : num 42
#  $ : num 50
#  $ : num 46
#  $ : num 42

好的,我们已经对原始列表进行了1000次抽样并完成了对它的处理(2*a[1]),并存储了结果。

因此,让我们将此应用于您的方案。由于你的数据是看不见的,我会弥补一些。

set.seed(2)
n <- 20
lst <- lapply(1:185, function(ign) data.frame(x=sample(100,size=n), y=sample(100,size=n)))

str(lst[1:2])
# List of 2
#  $ :'data.frame': 20 obs. of  2 variables:
#   ..$ x: int [1:20] 19 70 57 17 91 90 13 78 44 51 ...
#   ..$ y: int [1:20] 67 39 83 15 34 47 97 96 89 13 ...
#  $ :'data.frame': 20 obs. of  2 variables:
#   ..$ x: int [1:20] 99 30 12 16 91 76 92 33 47 74 ...
#   ..$ y: int [1:20] 78 88 62 26 83 42 37 43 21 7 ...

现在我有一个包含185个data.frames的列表,每个都有相同的两个变量xy。我们将您的问题应用于此数据。哦,随机性可能很耗时。 (顺便说一句:获得1000个随机数,然后1个随机数1000次,它很多更快。)

ind <- sample(185, size=1000, replace=TRUE)

现在,lst[ind]将是一个列表,1000个元素长,每个元素都是原始列表中的随机选择。

lms <- lapply(lst[ind], function(a) lm(y~x, data=a))

lm部分可以是你需要的任何东西,只要它是应用于所有元素的相同回归。函数中的代码可以只要你需要,所以也许这样想吧:

lms <- lapply(lst[ind], function(a) {
  z <- lm(y~x, data=a)
  return(z)
})

这有意义吗?)好的,让我们看看一些输出:

summary(lms[[1]])
# Call:
# lm(formula = y ~ x, data = a)
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -53.944 -13.463  -1.239  15.473  44.430 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  80.4523    15.3577   5.239 5.56e-05 ***
# x            -0.4217     0.2499  -1.687    0.109    
# ---
# Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Residual standard error: 25.23 on 18 degrees of freedom
# Multiple R-squared:  0.1366,  Adjusted R-squared:  0.0886 
# F-statistic: 2.847 on 1 and 18 DF,  p-value: 0.1088
summary(lms[[2]])
# Call:
# lm(formula = y ~ x, data = a)
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -55.108 -20.653  -0.465  18.827  42.747 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  60.7651    12.2366   4.966    1e-04 ***
# x            -0.1898     0.2060  -0.922    0.369    
# ---
# Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Residual standard error: 27.37 on 18 degrees of freedom
# Multiple R-squared:  0.04506, Adjusted R-squared:  -0.007996 
# F-statistic: 0.8493 on 1 and 18 DF,  p-value: 0.3689

&#34;但我不需要整个模型,我只想要系数!&#34; 当然,你是对的。如果你知道自己只需要一件事,那么显然你可以直接进行追逐并直接获得(例如coef(lm(y~x,data=a)))。所以,我没有重新运行1000个随机样本的回归,而是可以做另一个lapply

coefs <- lapply(lms[1:3], coef)
str(coefs[1:3])
# List of 3
#  $ : Named num [1:2] 80.452 -0.422
#   ..- attr(*, "names")= chr [1:2] "(Intercept)" "x"
#  $ : Named num [1:2] 60.77 -0.19
#   ..- attr(*, "names")= chr [1:2] "(Intercept)" "x"
#  $ : Named num [1:2] 53.716 -0.189
#   ..- attr(*, "names")= chr [1:2] "(Intercept)" "x"

在这种情况下,我实际上有几个选择。我可以坚持这个和&#34; rbind&#34; (行绑定)它们一起使用

head(do.call(rbind, coefs))
#      (Intercept)           x
# [1,]    80.45230 -0.42173749
# [2,]    60.76507 -0.18979726
# [3,]    53.71643 -0.18883933
# [4,]    49.51803  0.01494021
# [5,]    49.51803  0.01494021
# [6,]    68.25463 -0.25840920

或者我可以使用&#34; simple-apply&#34;之前(可选,但默认为是)将结果简化为矩阵或向量。如果任何返回的值与其他值的大小不同,则它将始终返回一个列表。 (因此,可能在程序上更难以简化它,进行一些健全性检查,然后再进行检查。)

coefs2 <- t(sapply(lms, coef))
head(coefs2)
#      (Intercept)           x
# [1,]    80.45230 -0.42173749
# [2,]    60.76507 -0.18979726
# [3,]    53.71643 -0.18883933
# [4,]    49.51803  0.01494021
# [5,]    49.51803  0.01494021
# [6,]    68.25463 -0.25840920

请注意,我必须t改变输出:它有点怪异且反直觉,因为输出(没有t(...))将有2个(每个回归系数一个)和1000个。所以我们转置它,因为我自然而然地认为它是每个模型行。如果您可以按模型列进行处理,则不需要这样做。

所以底线,你的for循环本身并不是语法上的错误,但是如果你想以这种方式对一个向量/列表的东西做一件事,你将获得显着的速度提升(在此并且,可以说,一旦你理解了它,就会有更多可读的代码。