R:在nlme包

时间:2016-10-18 03:46:44

标签: r memory memory-management variance nlme

我使用R中gls包的nlme函数创建了一个模型。 然后,我尝试使用weights参数将固定方差结构添加到模型中。

然而,我得到一个关于内存分配的错误,看起来似乎是极端的。

  

glsEstimate(object,control = control)出错:     'Calloc'无法分配内存(844字节的18446744073709551616)

有关如何处理此事的任何建议?

上下文:

  • 我的代码:

    mod <- read.csv('mod.ht.dat.csv', head = T)
    dim(mod)
    [1] 90826     8
    
    library(nlme)
    lm3 <- gls(HT ~ D * I(D^2), data = mod, na.action = na.omit, method = 'ML')
    vf1Fixed <- varFixed(~D)
    lm2 <- update(lm3, . ~ ., weights = vf1Fixed)
    Error in glsEstimate(object, control = control) : 
      'Calloc' could not allocate memory (18446744073709551616 of 8 bytes)
    

    - 注意:模型格式来自Zuur et al. (2009)

  • 我的内存使用情况(使用here中的代码)和内存限制:

    > lsos()
                     Type     Size    PrettySize  Rows Columns
    lm3               gls 12361512 [1] "11.8 Mb"    16      NA
    mod.ht.dat data.frame  4002768  [1] "3.8 Mb" 90826       8
    vf1Fixed     varFixed     1024    [1] "1 Kb"     0      NA
    
    > memory.limit()
    [1] 8182
    
  • 会话信息:

    R version 3.3.1 (2016-06-21)
    Platform: x86_64-w64-mingw32/x64 (64-bit)
    Running under: Windows 7 x64 (build 7601) Service Pack 1
    

对于我正在做的事情,必要的分配内存似乎非常高。

我已直接使用gls修改了代码(与update对比),我已将varFixed放在模型调用之外的中本身,我在模型调用之前为D ^ 2创建了一个nw变量,我已经清除了我的记忆,我已经重新启动了我的计算机等等......似乎没有什么能让这个巨大的数字下降。

是否有可能将此固定方差结构添加到模型真的是内存密集型?或者也许还有其他事情发生在我身上?我

更新

根据评论中的要求:

>traceback()

8: glsEstimate(object, control = control)
7: Initialize.glsStruct(glsSt, dataMod, glsEstControl)
6: Initialize(glsSt, dataMod, glsEstControl)
5: gls(model = HT ~ D + I(D^2) + D:I(D^2), data = mod, method = "ML", 
   na.action = na.omit, weights = vf1Fixed)
4: eval(expr, envir, enclos)
3: eval(call, parent.frame())
2: update.gls(lm3, . ~ ., weights = vf1Fixed)
1: update(lm3, . ~ ., weights = vf1Fixed)

>dput(head(mod,5))

structure(list(HT = c(3.7, 8.7, 10.1, 4, 8.7), SPEC = structure(c(53L, 
53L, 53L, 53L, 53L), .Label = c("ACBA", "ACER", "ACRU", "AESY", 
"AIAL", "ALJU", "AMAR", "BENI", "CACA", "CACO", "CACR", "CAFL", 
"CAGL", "CAOL", "CAOV", "CAPA", "CARY", "CATO", "CECA", "CELA", 
"CEOC", "CHVI", "COFL", "CRAT", "CRMA", "DIVI", "ELPU", "ELUM", 
"EUAM", "FAGR", "FRAX", "GLTR", "HAVI", "ILAM", "ILDE", "ILOP", 
"JUNI", "JUVI", "LIBE", "LIJA", "LISI", "LIST", "LITU", "LOMA", 
"MAGR", "MATR", "MORU", "NYSY", "OSVI", "OXAR", "PATO", "PIEC", 
"PITA", "PIVI", "PLOC", "PRSE", "QUAL", "QUCO", "QUER", "QUFA", 
"QULY", "QUMA", "QUPH", "QURG", "QURU", "QUST", "QUVE", "RHCO", 
"SAAL", "STGR", "ULAL", "ULAM", "ULRU", "UNKN", "VAAR", "VACC", 
"VACO", "VAST", "VIAC", "VIBR", "VIPR", "VIRA", "VIRU"), class = "factor"), 
    D = c(4.1, 6.9, 7.4, 6.9, 13.7), plot = c(4L, 4L, 4L, 4L, 
    4L), tree_age = c(9L, 13L, 16L, 9L, 13L), Year = c(1933L, 
    1937L, 1940L, 1933L, 1937L), StaticLineID = c(1L, 1L, 1L, 
    2L, 2L), D2 = c(16.81, 47.61, 54.76, 47.61, 187.69)), .Names = c("HT", 
"SPEC", "D", "plot", "tree_age", "Year", "StaticLineID", "D2"
), row.names = c(NA, 5L), class = "data.frame")

更新2:

请注意:我尝试将完全不同类型的方差结构应用于我的数据,以查看我的计算机如何处理我认为是相对类似的内存密集型过程。

  • 这次我添加了varIdent方差结构:

    >vf2 <- varIdent(form = ~ 1 | SPEC)
    >lm22 <- update(lm3, . ~ ., weights = vf2)
    

虽然它需要永远运行(最终会出现收敛错误),但它并没有立即产生内存分配错误,因为前者使用了varFixed编码。

1 个答案:

答案 0 :(得分:1)

解决方案:从差异协变量中删除0值

嗯,我仍然不确定为什么正在发生(虽然我正在仔细研究varFixed可能会告诉我),但我发现了这个问题。

有3个实例,其中D = 0。

(更一般地说,变量中有0个值(所谓的方差协变量)我试图用来生成我的固定方差结构)。

一旦我从训练数据中删除了这些具有0值的3棵树,模型就按预期运行(并且几乎立即)。

[注意:这些树都代表数据收集错误,因此可以“抛弃它们”]。