R data.table设置值

时间:2013-05-26 07:34:38

标签: r data.table

我正在尝试设置以下data.tables px& vol使用以下代码。 (回到缓慢的循环)

a=data.table(
  date_id = rep(seq(as.Date('2013-01-01'),as.Date('2013-04-10'),'days'),5),
  px =rnorm(500,mean=50,sd=5),
  vol=rnorm(500,mean=500000,sd=150000),
  id=rep(letters[1:5],each=100)
  )

b=data.table(
  date_id=rep(seq(as.Date('2013-01-01'),length.out=600,by='days'),5),
  id=rep(letters[1:5],each=600),
  px=NA_real_,
  vol=NA_real_
  )

setkeyv(a,c('date_id','id'))
setkeyv(b,c('date_id','id'))

并且以下方法不起作用。

s = a[1,id]
d = a[1,date_id]
b[id == s & date_id == d, list(names(b)[3:4])] <- a[id == s & date_id ==d, list(names(a)[2:3])]

使用以下代码失败

Error in `[<-.data.table`(`*tmp*`, id == s & date_id == d, list(names(b)[3:4]),  : 
  j must be atomic vector, see ?is.atomic

我做错了什么以及如何将这些值从一个data.table设置为另一个元素。实际的表有很多列,所以手写它不是我的选择。

由于

1 个答案:

答案 0 :(得分:9)

您的示例中存在多个问题。

首先,如果您想以dt[ , "col" ]格式访问data.table中的列,则必须添加with=FALSE

b[ , names(b)[3:4], with = FALSE ]

其次,我不确定是否可以使用赋值运算符(<-)在data.table中赋值。为此,有一个超快的按引用更新运算符:

b[
  id == s & date_id == d,
  names(b)[3:4] := a[id == s & date_id ==d, names(a)[2:3], with = FALSE],
  with = FALSE
]

第三,按dt[ col == value, ]语法对data.tables进行子集化是可能的,但速度很慢。特别是如果您已经在要分配的列上设置了键,则应使用以下语法:

b[
  J(d,s),
  names(b)[3:4] := a[J(d,s), names(a)[2:3], with = FALSE] ,
  with = FALSE
]

第四,这一切都在我看来好像你想要一个简单的两个表连接。所以最直接的将是

a[ b[ , list(date_id, id) ] ]

或者考虑一下您的评论,您只想覆盖px子集中的列vola

b[a, c("px", "vol") := a[, list(px, vol)], with = FALSE ]