glmulti超大候选集

时间:2013-07-18 18:24:32

标签: memory-management feature-selection

错误讯息:

  

SYSTEM:win7 / 64bit / ultimate / 16gb-real-ram plus虚拟内存,   memory.limit(32000)

        
  1. 此错误消息的含义是什么?         

    在glmulti(y =“y”,data = mydf,xr = c(“x1”,:!超大的候选集。

            

    mydf有3.6毫米行& 150列浮子

        
  2.     
  3. 在glmulti中采取哪些措施来解决它?
  4.     
  5. R世界中glmulti的替代品吗?
  6. R / 64bit“Good Sport”

1 个答案:

答案 0 :(得分:5)

我遇到了同样的问题,这是我到目前为止所发现的:

  1. 行数似乎不是问题。问题在于,有150个预测器,包不能进行穷举搜索(即看一看并比较所有可能的模型)。根据我的经验,您的特定错误消息" Oversized Candidate Set",是由您还允许成对交互(level=2,设置level=1以禁止交互)这一事实触发的。那么你很可能会遇到警告信息"太多的预测因素"。在我的(非常有限的)实验中,我发现我在候选集中工作的模型的最大数量是大约十亿个模型(具体地:30个协变量等于1,073,741,824,基于2 ^ n来计算可能的组合(n = 30) )。)。这是我用来评估这个

    的代码

    out <integer(50) for(i in 2:40) out[i]<-glmulti(names(data)[1], names(data)[2:i], method="d", level=1, crit=aic, data=data)

    一旦循环达到31个协变量,候选集返回0个模型。 33及以后它开始返回警告信息。我的数据&#34;有大约100个变量和大约1000行,但就像我说的问题是数据集的宽度而不是深度。

  2. 就像我说的那样,首先要消除相互作用,然后考虑首先使用其他变量减少技术来降低变量数(因子分析/主成分或聚类)。这些问题将失去一些可解释性,但保持预测能力。

  3. glmuttil documentation将包与替代方案进行比较,同时突出显示其用例,优势和失败。

  4. PS:我在Win7上运行了我的东西,64位,16GB Ram,R版本:3.10 glmutil 1.07。 PPS:据说该软件包的作者去年发布了2.0版本,可以解决其中的一些问题。阅读source

    了解更多信息