Question

我有一个像这样的数据框（但实际上有约40万行）：

library(data.table)
df <- fread("    id     start     end
174095 2018-12-19 2018-12-31
227156 2018-12-19 2018-12-31
210610 2018-04-13 2018-09-27
 27677 2018-04-12 2018-04-26
370474 2017-07-13 2017-08-19
303693 2017-02-20 2017-04-09
 74744 2016-10-03 2016-11-05
174095 2018-12-01 2018-12-20
 27677 2018-03-01 2018-05-29
111111 2018-01-01 2018-01-31
111111 2018-11-11 2018-12-31")

（编辑，感谢Uwe）

对于每一行，我想计算数据框中有多少行具有与当前行相同的ID，以及与当前行的周期重叠的开始-结束周期。例如，对于第一行，结果将为2，因为还有另一行id = 174095，并且其结尾大于第一行的开头。

我试图用dplyr的按行操作，例如：

df = df %>% rowwise() %>% mutate(count = sum(id == df$id & ((start >= df$start & start <= df$end) | (end >= df$start & end <= df$end))))

但这非常慢。我试了一下，两个小时后它仍在运行。

我也尝试使用mapply，但它也花费了太多时间：

df$count = mapply(function(id, start, end) {
return(sum(df$id == id & (between(df$start, start, end) | between(df$end, start, end))) }, id, start, end)

是否有一种有效的合理方法来做到这一点？

非常感谢您

编辑2019-03-06

@Uwe的建议解决方案：

df[, overlapping.rows := df[.SD, on = .(id, start <= end, end >= start), .N, by = .EACHI]$N][]

对于上面的示例data.frame来说效果很好。但是事实证明该示例还不够说明性，或者我并没有真正让我自己理解：）

我添加了ID 174095的第三条记录，并修改了另外两条：

df <- fread("id     start     end
174095 2018-12-19 2018-12-31
            227156 2018-12-19 2018-12-31
            210610 2018-04-13 2018-09-27
            27677 2018-04-12 2018-04-26
            370474 2017-07-13 2017-08-19
            303693 2017-02-20 2017-04-09
            74744 2016-10-03 2016-11-05
            174095 2018-12-01 2018-12-18
            27677 2018-03-01 2018-05-29
            111111 2018-01-01 2018-01-31
            111111 2018-11-11 2018-12-31
            174095 2018-11-30 2018-12-25")

现在，id 174095具有两个彼此不重叠的间隔（行1和2）和另一个与其他两个重叠的间隔（行3）：

           id      start        end
1: 174095 2018-12-19 2018-12-31
2: 174095 2018-12-01 2018-12-18
3: 174095 2018-11-30 2018-12-25

因此，结果应为：

       id      start        end overlapping.rows
1: 174095 2018-12-19 2018-12-31                2
2: 174095 2018-12-01 2018-12-18                2
3: 174095 2018-11-30 2018-12-25                3

但实际上是：

       id      start        end overlapping.rows
1: 174095 2018-12-19 2018-12-31                3
2: 174095 2018-12-01 2018-12-18                3
3: 174095 2018-11-30 2018-12-25                3

如果我没记错的话，这是因为最后的连接仅由“ id”完成，所以所有具有相同id的行都具有相同的结果。

我的解决方案包括通过“开始”和“结束”执行最终合并：

df[tmp, on = .(id, start, end), overlapping.rows := N]

由于某种原因（我很想找出...），在自我连接上，开始日期以“结束”列结尾，反之亦然，因此我必须在其后添加此行：

setnames(tmp, c("id", "end", "start", "N"))

现在，结果是：

            id      start        end overlapping.rows
 1: 174095 2018-12-19 2018-12-31                2
 2: 227156 2018-12-19 2018-12-31                1
 3: 210610 2018-04-13 2018-09-27                1
 4:  27677 2018-04-12 2018-04-26                2
 5: 370474 2017-07-13 2017-08-19                1
 6: 303693 2017-02-20 2017-04-09                1
 7:  74744 2016-10-03 2016-11-05                1
 8: 174095 2018-12-01 2018-12-18                2
 9:  27677 2018-03-01 2018-05-29                2
10: 111111 2018-01-01 2018-01-31                1
11: 111111 2018-11-11 2018-12-31                1
12: 174095 2018-11-30 2018-12-25                3

这正是我所期望的！

Answer 1

编辑2019-03-07以处理OP的扩展数据集

这可以通过聚合非等价自连接

来解决

library(data.table)
# coerce character dates to IDate class
cols <- c("start", "end")
setDT(df)[, (cols) := lapply(.SD, as.IDate), .SDcols = cols]
# non-equi self-join and aggregate
tmp <- df[df, on = .(id, start <= end, end >= start), .N, by = .EACHI]
# append counts to original dataset
df[, overlapping.rows := tmp$N]
df

        id      start        end overlapping.rows
 1: 174095 2018-12-19 2018-12-31                2
 2: 227156 2018-12-19 2018-12-31                1
 3: 210610 2018-04-13 2018-09-27                1
 4:  27677 2018-04-12 2018-04-26                2
 5: 370474 2017-07-13 2017-08-19                1
 6: 303693 2017-02-20 2017-04-09                1
 7:  74744 2016-10-03 2016-11-05                1
 8: 174095 2018-12-01 2018-12-18                2
 9:  27677 2018-03-01 2018-05-29                2
10: 111111 2018-01-01 2018-01-31                1
11: 111111 2018-11-11 2018-12-31                1
12: 174095 2018-11-30 2018-12-25                3

使用data.table链接可以更紧凑但更复杂的方式编写代码：

library(data.table)
cols <- c("start", "end")
setDT(df)[, (cols) := lapply(.SD, as.IDate), .SDcols = cols][
  , overlapping.rows := df[df, on = .(id, start <= end, end >= start), .N, by = .EACHI]$N][]

请注意，将结果附加到原始df的部分基于Frank's comment。

如果同一df与pointed out by the OP的计数不同，那么我尝试使用第二次联接将结果附加到原始id的原始尝试失败。可以通过在第二个联接中包括行号来解决此问题：

library(data.table)
# coerce character dates to IDate class
cols <- c("start", "end")
setDT(df)[, (cols) := lapply(.SD, as.IDate), .SDcols = cols]
# append row number
tmp <- df[, rn := .I][
  # non-equi self-join and aggregate
  df, on = .(id, start <= end, end >= start), .(rn = i.rn, .N), by = .EACHI]
# append counts to original dataset by joining on row number
df[tmp, on = "rn", overlapping.rows := N][, rn := NULL]
df

        id      start        end overlapping.rows
 1: 174095 2018-12-19 2018-12-31                2
 2: 227156 2018-12-19 2018-12-31                1
 3: 210610 2018-04-13 2018-09-27                1
 4:  27677 2018-04-12 2018-04-26                2
 5: 370474 2017-07-13 2017-08-19                1
 6: 303693 2017-02-20 2017-04-09                1
 7:  74744 2016-10-03 2016-11-05                1
 8: 174095 2018-12-01 2018-12-18                2
 9:  27677 2018-03-01 2018-05-29                2
10: 111111 2018-01-01 2018-01-31                1
11: 111111 2018-11-11 2018-12-31                1
12: 174095 2018-11-30 2018-12-25                3

说明

非等联接中的联接条件可以解决问题。如果第一个间隔在第二个间隔开始之前结束，或者第一个间隔在第二个间隔结束之后开始，则两个间隔不重叠

e ₁ ~~2 或e ₂ 1~~

现在，如果两个间隔 do 相交/重叠，则上述情况必须相反。通过否定和应用德根定律，我们得到了条件

s ₂ <= e ₁和e ₂> = s ₁
在非等额联接中使用的
。

数据

OP的扩展数据集，如OP的EDIT 2019-03-06中所述：

library(data.table) df <- fread("id start end 174095 2018-12-19 2018-12-31 227156 2018-12-19 2018-12-31 210610 2018-04-13 2018-09-27 27677 2018-04-12 2018-04-26 370474 2017-07-13 2017-08-19 303693 2017-02-20 2017-04-09 74744 2016-10-03 2016-11-05 174095 2018-12-01 2018-12-18 27677 2018-03-01 2018-05-29 111111 2018-01-01 2018-01-31 111111 2018-11-11 2018-12-31 174095 2018-11-30 2018-12-25")

Answer 2

我最初误解了这个问题，我认为@Uwe的方法是正确的方法。在我的第一个答案中，我使用了data.table来标识每个id的后续日期的组（以及一组中的行数），显然不是您要的日期。

这里也是一个简短的sqldf片段，以补充@Uwe的方法（尽管不够用，因为这里不保留行顺序-这将需要一些其他修改）：

library(sqldf)

df <- sqldf('SELECT id, start, end, COUNT(*) as overlappingRows FROM (SELECT df.* FROM df 
            LEFT OUTER JOIN df AS df2 
            ON df.id = df2.id AND df.start <= df2.end AND df.end >= df2.start) as origdf 
            GROUP BY id, start, end')

输出：

       id      start        end overlappingRows
1   27677 2018-03-01 2018-05-29               2
2   27677 2018-04-12 2018-04-26               2
3   74744 2016-10-03 2016-11-05               1
4  111111 2018-01-01 2018-01-31               1
5  111111 2018-11-11 2018-12-31               1
6  174095 2018-12-01 2018-12-20               2
7  174095 2018-12-19 2018-12-31               2
8  210610 2018-04-13 2018-09-27               1
9  227156 2018-12-19 2018-12-31               1
10 303693 2017-02-20 2017-04-09               1
11 370474 2017-07-13 2017-08-19               1

计算与当前行相对应的符合条件的行

2 个答案:

说明

数据