Question

我有这段代码：

dat<-dat[,list(colA,colB
                     ,RelativeIncome=Income/.SD[Nation=="America",Income]
                     ,RelativeIncomeLog2=log2(Income)-log2(.SD[Nation=="America",Income])) #Read 1)
               ,by=list(Name,Nation)]

1）我希望能够说出"RelativeIncomeLog2=log2(RelativeIncome)"，但"RelativeIncome"的{{1}}范围内没有j？

2）我尝试了以下代码（根据data.table常见问题解答）。现在"RelativeIncome"可用但不添加列：

     dat<-dat[,{colA;colB;RelativeIncome=Income/.SD[Nation=="America",Income];
               ,RelativeIncomeLog2=log2(RelativeIncome)])) 
               ,by=list(Name,Nation)]

Answer 1

您可以在j中创建和分配对象，只需使用{花括号}。

然后，您可以将这些对象（或对象的函数和计算）传递出j，并将它们指定为data.table的列。要一次分配多个列，只需：

将LHS包裹在c(.) 中，确保列名为字符串和
j的最后一行（，即“返回”值）应该是一个列表。

  dat[ , c("NewIncomeComlumn", "AnotherNewColumn") := { 
                 RelativeIncome     <- Income/.SD[Nation == "A", Income];   
                 RelativeIncomeLog2 <- log2(RelativeIncome);  
                 ## this last line is what will be asigned.
                 list(RelativeIncomeLog2 * 100,  c("A", "hello", "World"))
                 # assigned values are recycled as needed.
                 # If the recycling does not match up, a warning is issued. 
                }
                , by = list(Name, Nation)
               ]

你可能会认为j是dat

环境中的一个功能

如果需要，您还可以获得更复杂和复杂的内容。您还可以使用by

合并by=list(<someName>=col)个参数

事实上，与功能相似，只需在j中创建一个对象并为其指定一个值，就不会表示它将在j之外可用。为了将它分配给data.table，您必须将其返回。 j自动返回最后一行;如果最后一行是列表，则列表中的每个元素都将作为列处理。如果您通过引用分配（即使用:=），那么您将获得预期的结果。

另外，我在您的代码中注意到以下内容：

 Income / .SD[Nation == "America", Income]

 # Which instead could simply be: 
 Income / Income[Nation == "America"]

.SD很棒，因为它是一个很棒的速记。但是，要调用它而不需要它封装的所有列，就会增加代码的内存成本。如果您只使用单个列，请考虑明确命名该列，或者添加.SDcols参数（在j之后）并命名其中所需的列。

数据表中“j”中新添加的列应该在范围内可用

1 个答案: