我试图根据条件语句来连接两个非常大的表。我想将df2加入每个组(x)中的df1上,但只包括df2中属于df2最小值和最大值的行。
df1 <- data.frame(x = c(1,1,1,1,2,2,2,2,2,3), y = seq(1,10))
df2 <- data.frame(x2 = c(1,1,2,2,2), y_min = c(1, 1, 6, 6, 6), y_max = c(3,3,9,9,9), cat = c("A",'A','S','S','S'))
我正在寻找的结果是
df3 <- data.frame(x = c(1,1,1,1,2,2,2,2,2,3), y = seq(1,10), y_min = c(1,1,1,NA,NA,6,6,6,6,NA), y_max = c(3,3,3,NA,NA,9,9,9,9,NA), cat = c('A','A','A',NA,NA,'S','S','S','S',NA))
x y y_min y_max cat
1 1 1 1 3 A
2 1 2 1 3 A
3 1 3 1 3 A
4 1 4 NA NA <NA>
5 2 5 NA NA <NA>
6 2 6 6 9 S
7 2 7 6 9 S
8 2 8 6 9 S
9 2 9 6 9 S
10 3 10 NA NA <NA>
这最初是用SAS PROC SQL脚本编写的,但是在将其转换为R时遇到了麻烦。
PROC SQL;
SELECT a.*, b.*
FROM tbl1 a
LEFT JOIN tbl2 b
on (a.col1 - b.col1) >= 0 and (a.col1 - b.col2) <= 0
and a.id = b.id
我尝试使用base ::&data.table :: merge,但是没有运气。任何帮助将不胜感激。
答案 0 :(得分:2)
您可以使用软件包sqldf
在SQL
对象上使用R
代码。附带说明一下,您的SAS名称与您在R中使用的名称不同,以备将来参考,请确保它们相同,以便人们复制。
library(sqldf)
df1 <- data.frame(x = c(1,1,1,1,2,2,2,2,2,3), y = seq(1,10))
df2 <- data.frame(x2 = c(1,1,2,2,2), y_min = c(1, 1, 6, 6, 6), y_max = c(3,3,9,9,9), cat = c("A",'A','S','S','S'))
sqldf('SELECT a.*, b.*
FROM df1 a
LEFT JOIN df2 b
on (a.y - b.y_min) >= 0 and (a.y- b.y_max) <= 0
and a.x = b.x2')
答案 1 :(得分:1)
使用data.table
:
library(data.table)
setDT(df1)
setDT(df2)
unique(df2)[df1,
.(x = i.x, y = i.y, y_min = x.y_min, y_max = x.y_max, cat = x.cat),
on = c("x2 == x", "y_min <= y", "y_max >= y")]
x y y_min y_max cat
1: 1 1 1 3 A
2: 1 2 1 3 A
3: 1 3 1 3 A
4: 1 4 NA NA <NA>
5: 2 5 NA NA <NA>
6: 2 6 6 9 S
7: 2 7 6 9 S
8: 2 8 6 9 S
9: 2 9 6 9 S
10: 3 10 NA NA <NA>
仅需注意-df2
中有重复的行,导致简单的左连接产生的行多于df3
中指示的行,因此调用了unique()
。