我是R的新手,我正在做一些物流回归模型。我试图对我的100多个变量的2M记录数据运行bigglm。我的变量由数字和整数(0/1)组成,因为我已将其设置为指示符,例如。
isOK,quantity,weight,isUS,isEU,isASIA
0,2,1.1,0,0,1
1,1,0.9,1,1,0
然而,bigglm总是抛出错误
coef.bigqr(object $ qr)中的错误: 外国函数调用中的NA / NaN / Inf(arg 3)
来自traceback(),它显示以下内容
14: coef.bigqr(object$qr)
13: coef(object$qr)
12: coef.biglm(iwlm)
11: coef(iwlm)
10: bigglm.function(formula = formula, data = datafun, ...)
9: bigglm(formula = formula, data = datafun, ...)
8: bigglm(formula = formula, data = datafun, ...)
7: bigglm.data.frame(myForm, data = myraw.data[i, , drop = FALSE],
family = binomial(link = logit))
6: bigglm(myForm, data = myraw.data[i, , drop = FALSE], family = binomial(link = logit))
5: bigglm(myForm, data = myraw.data[i, , drop = FALSE], family = binomial(link = logit)) at trial.r#48
4: eval(ei, envir)
3: eval(ei, envir)
2: withVisible(eval(ei, envir))
1: source("trial.r")
我做了一些研究,并且提到bigglm应该具有块中所有可能的值/因子,但是,我的所有变量都是数字/指示符,我认为这不是必要的(如果我是,请纠正我错误)。无论如何,我已经重新排列了我的数据集,使得第一个块(对于我的情况,我将其设置为3000,如下所示),所有整数变量都有0或1的记录。
for (i in chunk(myraw.data, by=3000)){
if (i[1]==1){
myFullLRModel <- bigglm(myForm, data=myraw.data[i,,drop=FALSE], family=binomial(link=logit))
}else{
myFullLRModel <- update(myFullLRModel, myraw.data[i,,drop=FALSE])
}
}
您能否就出现错误的原因提出建议?我无法运行glm,因为它总是返回不足的内存。
答案 0 :(得分:0)
如果您有0/1个变量,并且在一个块中没有观察到零(即,该列是恒定的),则将导致NA
系数,这可能会导致您遇到的问题。 / p>