条件data.table与.EACHI合并

时间:2017-04-02 22:00:15

标签: r data.table

我一直在使用较新的data.table条件合并功能,这非常酷。我有一种情况,我有两个表dtBigdtSmall,并且当这个条件合并发生时,两个数据集中都有多个行匹配。有没有办法使用像maxmin这样的函数来聚合这些匹配?这是一个可重现的例子,试图模仿我想要完成的事情。

设置环境

## docker run --rm -ti rocker/r-base
## install.packages("data.table", type = "source",repos = "http://Rdatatable.github.io/data.table")

创建两个假数据集

创造一个"大"包含50行的表(每个ID 10个值)。

library(data.table)
set.seed(1L)

# Simulate some data
dtBig <- data.table(ID=c(sapply(LETTERS[1:5], rep, 10, simplify = TRUE)), ValueBig=ceiling(runif(50, min=0, max=1000)))
dtBig[, Rank := frank(ValueBig, ties.method = "first"), keyby=.(ID)]

    ID ValueBig Rank
 1:  A      266    3
 2:  A      373    4
 3:  A      573    5
 4:  A      909    9
 5:  A      202    2
---                 
46:  E      790    9
47:  E       24    1
48:  E      478    2
49:  E      733    7
50:  E      693    6

创建&#34;小&#34;数据集类似于第一个,但有10行(每个ID 2个值)

dtSmall <- data.table(ID=c(sapply(LETTERS[1:5], rep, 2, simplify = TRUE)), ValueSmall=ceiling(runif(10, min=0, max=1000)))

    ID ValueSmall
 1:  A        478
 2:  A        862
 3:  B        439
 4:  B        245
 5:  C         71
 6:  C        100
 7:  D        317
 8:  D        519
 9:  E        663
10:  E        407

合并

我接下来想要ID执行合并,只需要在ValueSmall大于或等于ValueBig的情况下进行合并。对于匹配项,我想获取maxdtBig排名的值。我尝试过两种不同的方式。方法2给了我想要的输出,但我不清楚为什么输出完全不同。看起来它只是返回最后一个匹配的值。

## Method 1
dtSmall[dtBig, RankSmall := max(i.Rank), by=.EACHI, on=.(ID, ValueSmall >= ValueBig)]

## Method 2
setorder(dtBig, ValueBig)
dtSmall[dtBig, RankSmall2 := max(i.Rank), by=.EACHI, on=.(ID, ValueSmall >= ValueBig)]

结果

    ID ValueSmall RankSmall RankSmall2 DesiredRank
 1:  A        478         1          4           4
 2:  A        862         1          7           7
 3:  B        439         3          4           4
 4:  B        245         1          2           2
 5:  C         71         1          1           1
 6:  C        100         1          1           1
 7:  D        317         1          2           2
 8:  D        519         3          5           5
 9:  E        663         2          5           5
10:  E        407         1          1           1

是否有更好的data.table方法可以在多个匹配的另一个data.table中获取最大值?

1 个答案:

答案 0 :(得分:5)

  

我接下来想要按ID执行合并,只需要在ValueSmall大于或等于ValueBig的情况下合并。对于比赛,我想获取dtBig中的最大排名值。

setorder(dtBig, ID, ValueBig, Rank)
dtSmall[, r :=
  dtBig[.SD, on=.(ID, ValueBig <= ValueSmall), mult="last", x.Rank ]
]

    ID ValueSmall r
 1:  A        478 4
 2:  A        862 7
 3:  B        439 4
 4:  B        245 2
 5:  C         71 1
 6:  C        100 1
 7:  D        317 2
 8:  D        519 5
 9:  E        663 5
10:  E        407 1

我认为对dtBig进行排序并采用最后一个匹配行而不是通过.EACHI来计算最大值要快得多,但我并不完全确定。如果您不喜欢排序,只需保存以前的排序顺序,以便之后可以恢复它。

  

有没有办法使用max或min这样的函数来聚合这些匹配?

对于这个更普遍的问题,.EACHI可以工作,只是确保你为目标表的每一行(在这种情况下为dtSmall)执行它,所以......

dtSmall[, r :=
  dtBig[.SD, on=.(ID, ValueBig <= ValueSmall), max(x.Rank), by=.EACHI ]$V1
]