数据表中“j”中新添加的列应该在范围内可用

时间:2013-05-12 18:54:19

标签: r data.table

我有这段代码:

dat<-dat[,list(colA,colB
                     ,RelativeIncome=Income/.SD[Nation=="America",Income]
                     ,RelativeIncomeLog2=log2(Income)-log2(.SD[Nation=="America",Income])) #Read 1)
               ,by=list(Name,Nation)]

1)我希望能够说出"RelativeIncomeLog2=log2(RelativeIncome)",但"RelativeIncome"的{​​{1}}范围内没有j

2)我尝试了以下代码(根据data.table常见问题解答)。现在"RelativeIncome"可用但不添加列:

     dat<-dat[,{colA;colB;RelativeIncome=Income/.SD[Nation=="America",Income];
               ,RelativeIncomeLog2=log2(RelativeIncome)])) 
               ,by=list(Name,Nation)]

1 个答案:

答案 0 :(得分:8)

您可以在j中创建和分配对象,只需使用{花括号}

然后,您可以将这些对象(或对象的函数和计算)传递出j,并将它们指定为data.table的列。要一次分配多个列,只需:

  • LHS包裹在c(.) 中,确保列名为字符串
  • j的最后一行(,即“返回”值)应该是一个列表。

  dat[ , c("NewIncomeComlumn", "AnotherNewColumn") := { 
                 RelativeIncome     <- Income/.SD[Nation == "A", Income];   
                 RelativeIncomeLog2 <- log2(RelativeIncome);  
                 ## this last line is what will be asigned.
                 list(RelativeIncomeLog2 * 100,  c("A", "hello", "World"))
                 # assigned values are recycled as needed.
                 # If the recycling does not match up, a warning is issued. 
                }
                , by = list(Name, Nation)
               ]

你可能会认为jdat

环境中的一个功能

如果需要,您还可以获得更复杂和复杂的内容。您还可以使用by

合并by=list(<someName>=col)个参数

事实上,与功能相似,只需在j中创建一个对象并为其指定一个值,就不会表示它将在j之外可用。为了将它分配给data.table,您必须将其返回。 j自动返回最后一行;如果最后一行是列表,则列表中的每个元素都将作为列处理。如果您通过引用分配(即使用:=),那么您将获得预期的结果。


另外,我在您的代码中注意到以下内容:

 Income / .SD[Nation == "America", Income]

 # Which instead could simply be: 
 Income / Income[Nation == "America"]

.SD很棒,因为它是一个很棒的速记。但是,要调用它而不需要它封装的所有列,就会增加代码的内存成本。如果您只使用单个列,请考虑明确命名该列,或者添加.SDcols参数(在j之后)并命名其中所需的列。