在函数中通过引用向data.table添加新列并不总是有效

时间:2015-01-21 23:13:11

标签: r data.table

在写一个依赖data.table的包时,我发现了一些奇怪的行为。我有一个函数删除和重新排序一些列引用,它工作得很好,这意味着我传入的data.table被修改而没有分配函数输出。我有另一个添加 new 列的函数,但这些更改并不总是在传入的data.table中保留。

这是一个小例子:

library(data.table)  # I'm using 1.9.4
test <- data.table(id = letters[1:2], val=1:2)
foobar <- function(dt, col) {
    dt[, (col) := 1]
    invisible(dt)
}

test
#  id val
#1: a   1
#2: b   2
saveRDS(test, "test.rds")
test2 <- readRDS("test.rds")
all.equal(test, test2)
#[1] TRUE
foobar(test, "new")
test
#  id val new
#1: a   1   1
#2: b   2   1
foobar(test2, "new")
test2
#  id val
#1: a   1
#2: b   2

发生什么事了? test2有什么不同?我可以在任何一个位置修改现有列:

foobar(test, "val")
test
#  id val new
#1: a   1   1
#2: b   1   1
foobar(test2, "val")
test2
#  id val
#1: a   1
#2: b   1

但是添加到test2仍然无效:

foobar(test2, "someothercol")
.Last.value
#  id val someothercol
#1: a   1            1
#2: b   1            1
test2
#  id val
#1: a   1
#2: b   1

我无法确定所有看到此行为的情况,但保存到RDS并从RDS读取是我可以可靠复制的第一种情况。写入和读取CSV似乎没有同样的问题。

这是一个指针问题ala this issue,就像序列化data.table一样会破坏过度分配的指针?有一种简单的方法可以恢复它们吗?我怎么能在我的函数中检查它们,所以如果操作不起作用我可以恢复指针或错误?

我知道我可以将函数输出指定为变通方法,但这不是data.table - y。那不会在内存中创建一个临时副本吗?

对Arun解决方案的回应

Arun已经指示它确实是指针问题,可以使用truelength进行诊断,并使用setDTalloc.col进行修正。我遇到了一个问题,将他的解决方案封装在一个函数中(从上面的代码继续):

func <- function(dt) {if (!truelength(dt)) setDT(dt)}
func2 <- function(dt) {if (!truelength(dt)) alloc.col(dt)}
test2 <- readRDS("test.rds")
truelength(test2)
#[1] 0
truelength(func(test2))
#[1] 100
truelength(test2)
#[1] 0
truelength(func2(test2))
#[1] 100
truelength(test2)
#[1] 0

因此看起来函数中的本地副本正在被正确修改,但参考版本不是。为什么不呢?

1 个答案:

答案 0 :(得分:14)

  

这是一个指针问题这个问题,比如序列化data.table会破坏过度分配的指针吗?

是从磁盘加载将外部指针设置为NULL。我们将不得不再次过度分配。

  

有一种简单的方法可以恢复它们吗?

是。您可以测试data {。truelength(),如果是0,则可以使用setDT()alloc.col()

truelength(test2) # [1] 0
if (!truelength(test2))
    setDT(test2)
truelength(test2) # [1] 100

foobar(test2, "new")
test2[]
#    id val new
# 1:  a   1   1
# 2:  b   2   1

这可能应该作为常见问题解答(不记得在那里看到它)。
已经在警告信息部分的FAQ中。