我有一个名为AllFramesCoeff
的数据框列表。我想生成一个随机数,让我的数据帧列表引用该数字来引用一个随机数据帧,并在列表中的185个数据帧之一上使用for循环,用于lm
的两个特定列模型。我希望它做1000次随机测试。
我还想将lm系数结果放在一个对象中,可能是一个向量。
我的计划是稍后返回并创建直方图,发行版和插入新列以重复它。
我尝试过的事情:
m <- matrix(0, ncol = 2)
CorrResults<- as.data.frame(m)
for (i in length(WaFramesCoeff)) function() {
r <- sample(185, 1)
CorrLM <-lm( WaFramesCoeff[i]$ `Nights_&_Weekends_Min_Used` ~ WaFramesCoeff[i]$ `Taxes,_Surcharges_and_Fees` ,data=WaFramesCoeff[i] )
CorrResults[i,]<- CorrLM$Coeff
}
然后:
m <- matrix(0, ncol = 2)
CorrResults<- as.data.frame(m)
for (i in length(WaFramesCoeff)) {
r <- sample(185, 1)
function(x){
CorrLM <-lm( x$ `Nights_&_Weekends_Min_Used` ~ x$ `Taxes,_Surcharges_and_Fees` ,data=x )
}
CorrResults[i,]<- CorrLM$Coeff
}
我知道这个网站更喜欢可重复的数据,所以我为缺乏它而道歉。我和同行无法弄清楚这一点;我确定它很明显,但我已经用尽了所有的知识。
修改:
我走近了。但1000只中的每一只都向我展示了拦截。情节也只显示了一点,所以我显然没有做到这一点。
CorrResults <- matrix(0, 1,1000)
for (i in 1:1000) {
d <- sample(WaFramesAll,1)
w <- sapply( d, TestLM )
CorrResults[i]<- w
}
答案 0 :(得分:1)
让我们通过不同的方式来想象做这种事情。
首先,要知道for
循环有它们的位置,如果正确完成它们可以和*apply
函数一样快。虽然你对循环的使用在语法上是正确的,但有不同的方法可以使用它更有意义。您正尝试在列表的多个元素上运行一系列命令或函数。想象一下这个简单的计划:对于列表中的每个元素,取第一个元素然后加倍并将其平方:
invec <- list(c(21,22),c(23,24),c(25,26))
str(invec)
# List of 3
# $ : num [1:2] 21 22
# $ : num [1:2] 23 24
# $ : num [1:2] 25 26
outvec <- replicate(length(invec), NULL) # preallocate same size
for (i in seq_along(invec)) {
outvec[[i]] <- c(2*invec[[i]][1], invec[[i]][1]^2)
}
str(outvec)
# List of 3
# $ : num [1:2] 42 441
# $ : num [1:2] 46 529
# $ : num [1:2] 50 625
看起来很简单。现在让我们看看如何使用*apply
函数执行相同操作:
invec <- list(c(21,22),c(23,24),c(25,26))
outvec <- lapply(invec, function(a) c(2*a[1], a[1]^2))
str(outvec)
# List of 3
# $ : num [1:2] 42 441
# $ : num [1:2] 46 529
# $ : num [1:2] 50 625
读取apply函数的方法是&#34;取向量invec
,并在每个元素上调用此函数,将结果捕获到列表名称outvec
&#34 ; 。该功能可以是&#34;匿名&#34; (就像它在这里),或者它可以是一个名为&#34;功能,如
lapply(invec, max)
# [[1]]
# [1] 22
#
# [[2]]
# [1] 24
#
# [[3]]
# [1] 26
那么这对您的采样问题有何帮助?让我分开另一秒。
您是否知道可以将矢量和列表任意索引?例如:
str(invec[c(1,3,2,3,2,3)])
# List of 6
# $ : num [1:2] 21 22
# $ : num [1:2] 25 26
# $ : num [1:2] 23 24
# $ : num [1:2] 25 26
# $ : num [1:2] 23 24
# $ : num [1:2] 25 26
有傻瓜,好的。让我们说我们想从这个非常短的列表中抓取1000个随机样本:
set.seed(3)
ind <- sample(length(invec), size=1000, replace=TRUE)
str(outvec[1:4])
# List of 4
# $ : num 42
# $ : num 46
# $ : num 50
# $ : num 46
outvec <- lapply(invec[ind], function(a) 2*a[1])
str(outvec[1:4])
# List of 4
# $ : num 42
# $ : num 50
# $ : num 46
# $ : num 42
好的,我们已经对原始列表进行了1000次抽样并完成了对它的处理(2*a[1]
),并存储了结果。
因此,让我们将此应用于您的方案。由于你的数据是看不见的,我会弥补一些。
set.seed(2)
n <- 20
lst <- lapply(1:185, function(ign) data.frame(x=sample(100,size=n), y=sample(100,size=n)))
str(lst[1:2])
# List of 2
# $ :'data.frame': 20 obs. of 2 variables:
# ..$ x: int [1:20] 19 70 57 17 91 90 13 78 44 51 ...
# ..$ y: int [1:20] 67 39 83 15 34 47 97 96 89 13 ...
# $ :'data.frame': 20 obs. of 2 variables:
# ..$ x: int [1:20] 99 30 12 16 91 76 92 33 47 74 ...
# ..$ y: int [1:20] 78 88 62 26 83 42 37 43 21 7 ...
现在我有一个包含185个data.frames的列表,每个都有相同的两个变量x
和y
。我们将您的问题应用于此数据。哦,随机性可能很耗时。 (顺便说一句:获得1000个随机数,然后1个随机数1000次,它很多更快。)
ind <- sample(185, size=1000, replace=TRUE)
现在,lst[ind]
将是一个列表,1000个元素长,每个元素都是原始列表中的随机选择。
lms <- lapply(lst[ind], function(a) lm(y~x, data=a))
(lm
部分可以是你需要的任何东西,只要它是应用于所有元素的相同回归。函数中的代码可以只要你需要,所以也许这样想吧:
lms <- lapply(lst[ind], function(a) {
z <- lm(y~x, data=a)
return(z)
})
这有意义吗?)好的,让我们看看一些输出:
summary(lms[[1]])
# Call:
# lm(formula = y ~ x, data = a)
# Residuals:
# Min 1Q Median 3Q Max
# -53.944 -13.463 -1.239 15.473 44.430
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 80.4523 15.3577 5.239 5.56e-05 ***
# x -0.4217 0.2499 -1.687 0.109
# ---
# Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Residual standard error: 25.23 on 18 degrees of freedom
# Multiple R-squared: 0.1366, Adjusted R-squared: 0.0886
# F-statistic: 2.847 on 1 and 18 DF, p-value: 0.1088
summary(lms[[2]])
# Call:
# lm(formula = y ~ x, data = a)
# Residuals:
# Min 1Q Median 3Q Max
# -55.108 -20.653 -0.465 18.827 42.747
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 60.7651 12.2366 4.966 1e-04 ***
# x -0.1898 0.2060 -0.922 0.369
# ---
# Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Residual standard error: 27.37 on 18 degrees of freedom
# Multiple R-squared: 0.04506, Adjusted R-squared: -0.007996
# F-statistic: 0.8493 on 1 and 18 DF, p-value: 0.3689
&#34;但我不需要整个模型,我只想要系数!&#34; 当然,你是对的。如果你知道自己只需要一件事,那么显然你可以直接进行追逐并直接获得(例如coef(lm(y~x,data=a))
)。所以,我没有重新运行1000个随机样本的回归,而是可以做另一个lapply
:
coefs <- lapply(lms[1:3], coef)
str(coefs[1:3])
# List of 3
# $ : Named num [1:2] 80.452 -0.422
# ..- attr(*, "names")= chr [1:2] "(Intercept)" "x"
# $ : Named num [1:2] 60.77 -0.19
# ..- attr(*, "names")= chr [1:2] "(Intercept)" "x"
# $ : Named num [1:2] 53.716 -0.189
# ..- attr(*, "names")= chr [1:2] "(Intercept)" "x"
在这种情况下,我实际上有几个选择。我可以坚持这个和&#34; rbind&#34; (行绑定)它们一起使用
head(do.call(rbind, coefs))
# (Intercept) x
# [1,] 80.45230 -0.42173749
# [2,] 60.76507 -0.18979726
# [3,] 53.71643 -0.18883933
# [4,] 49.51803 0.01494021
# [5,] 49.51803 0.01494021
# [6,] 68.25463 -0.25840920
或者我可以使用&#34; simple-apply&#34;之前(可选,但默认为是)将结果简化为矩阵或向量。如果任何返回的值与其他值的大小不同,则它将始终返回一个列表。 (因此,可能在程序上更难以简化它,进行一些健全性检查,然后再进行检查。)
coefs2 <- t(sapply(lms, coef))
head(coefs2)
# (Intercept) x
# [1,] 80.45230 -0.42173749
# [2,] 60.76507 -0.18979726
# [3,] 53.71643 -0.18883933
# [4,] 49.51803 0.01494021
# [5,] 49.51803 0.01494021
# [6,] 68.25463 -0.25840920
请注意,我必须t
改变输出:它有点怪异且反直觉,因为输出(没有t(...)
)将有2个行(每个回归系数一个)和1000个列。所以我们转置它,因为我自然而然地认为它是每个模型行。如果您可以按模型列进行处理,则不需要这样做。
所以底线,你的for
循环本身并不是语法上的错误,但是如果你想以这种方式对一个向量/列表的东西做一件事,你将获得显着的速度提升(在此并且,可以说,一旦你理解了它,就会有更多可读的代码。