在非常大的数据集

时间:2017-08-27 22:11:29

标签: r large-data-volumes glmnet

我使用cv.glmnet()函数来估计惩罚的多项logit模型。 由于数据集太大而无法重现,所以我展示了函数的调用:

cvfit = cv.glmnet(x= X, 
                  y=as.numeric(dat$choice_t) ,
                  family="multinomial", 
                  type.multinomial = "grouped", 
                  parallel = TRUE,
                  alpha=0,
                  nfolds=5)

在我的整个数据集的“小”子集上使用我的代码工作正常,但包括所有30 mio。观察导致以下错误:

Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs,  : 
  lange Vektoren (Argument 5) nicht unterstützt in  .C
Ruft auf: cv.glmnet -> glmnet -> lognet -> .Fortran

公寓形成了许多观察,我包括许多互动条款 - 总共50个。

我已经在一台服务器上工作,所有8个CPU内核都使用16 GB。

我该怎么做才能避免这个问题?

我可以设置任何选项吗?

0 个答案:

没有答案