我正在使用dplyr / broom包对多个传感器进行线性回归。当我在do语句中使用lm()时,来自扫帚的glance()函数将无法工作,但如果我使用biglm()将会工作。这不会是一个问题,但我希望r ^ 2,F-Statistic和p-val对于传统的lm()来说非常漂亮。
我在其他地方看了一下,但是找不到类似的错误:
Error in data.frame(r.squared = r.squared, adj.r.squared = adj.r.squared, :
object 'fstatistic' not found
可能的预感:
?Anova
"The comparison between two or more models will only be valid if they are
fitted to the same dataset. This may be a problem if there are missing
values and R's default of na.action = na.omit is used."
以下是代码:
library(tidyr)
library(broom)
library(biglm) # if not install.packages("biglm")
library(dplyr)
regressionBig <- tidied_rm_outliers %>%
group_by(sensor_name, Lot.Tool, Lot.Module, Recipe, Step, Stage, MEAS_TYPE) %>%
do(fit = biglm(MEAS_AVG ~ value, data = .)) #note biglm is used
regressionBig
#extract the r^2 from the complex list type from the data frame we just stored
glances <- regressionBig %>% glance(fit)
glances %>%
ungroup() %>%
arrange(desc(r.squared))
#Biglm works but if i try the same thing with regular lm It errors on glance()
ErrorDf <- tidied_rm_outliers %>%
group_by(sensor_name, Lot.Tool, Lot.Module, Recipe, Step, Stage, MEAS_TYPE) %>%
do(fit = lm(MEAS_AVG ~ value, data = .)) #note lm is normal
ErrorDf %>% glance(fit)
#Error in data.frame(r.squared = r.squared, adj.r.squared = adj.r.squared, :
#object 'fstatistic' not found
我讨厌上传整个数据框,因为我知道它在S / O上通常是不可接受的,但我不确定如果不这样做就可以创建一个可重现的例子。 https://www.dropbox.com/s/pt6xe4jdxj743ka/testdf.Rda?dl=0
关于pastebin的R会话信息,如果你愿意的话here!
答案 0 :(得分:6)
在ErrorDf
中看起来像是一个糟糕的模型。我诊断它运行for
循环。
for (i in 1:nrow(ErrorDf)){
print(i)
glance(ErrorDf$fit[[i]])
}
对于模型#94,似乎没有value
的系数估计。我还没有进行任何进一步的调查,但它提出了一个有趣的问题:broom
应如何处理
答案 1 :(得分:3)
遇到同样的问题后,我发现了这篇文章。如果lm()
失败,因为某些分组的案例太少,那么您可以通过预先过滤数据来解决此问题,以便在运行do()
循环之前删除这些分组。下面的通用代码显示了如何过滤掉少于30个数据点的组。
require(dplyr)
require(broom)
data_grp = ( data
%>% group_by(factor_a, factor_b)
%>% mutate(grp_cnt=n())
%>% filter(grp_cnt>30)
)
答案 2 :(得分:1)
我在故障排除中找到这篇文章之后写了一个函数来处理这个问题。软件包维护者可能(将)有一个更聪明的解决方案,但我认为它应该适用于大多数情况。感谢@Benjamin的循环灵感。
collect_glance=function(mdldF){
# mdldF should be a data frame from dplyr/broom with the column 'mdl' for the object models
mdlglance=data_frame() #initialize empty dataframe
metadF=mdldF %>% slice(0) %>% select(-ncol(mdldF))#create an empty data frame with only the group info
i=1
for(i in 1:nrow(mdldF)){
# fill in metadata for each group for each modeling iteration
for(colnums in 1:ncol(mdldF)-1){
metadF[1,colnames(mdldF)[colnums]]=mdldF[i,colnames(mdldF[colnums])]
}
# attempt glance(). if succesful, bind to metadata. if not, return empty dataframe
gtmp=tryCatch(glance(mdldF$mdl[[i]]) %>% bind_cols(metadF,.), error = function(e) {
data_frame()
})
# test for empty dataframe. bind to mdlglance data frame if glance was successful. otherwise use full_join to join mdlglance and metadata by group names and get NA for all the other glance columns.
if(nrow(gtmp)!=0) {
mdlglance=bind_rows(mdlglance,gtmp)
} else {
mdlglance=full_join(mdlglance,metadF)
}
}
return(mdlglance)
}