通过事件历史记录使用R

时间:2019-06-25 17:00:23

标签: r dplyr data.table snow

我有一个结构如下的数据表,其中一直跟踪进程。如果发生了某个事件,那么我会在当天在其旁边标记一个1,否则将其标记为0。我在这里显示了前几个事件,但是实际数据集有很多行(超过500,000),并且有很多唯一的进程ID。

process_id    date         event
00001       01/01/12     0
00002       01/01/12     1
00003       01/01/12     0
...         ...          ...
00001       01/01/19     1
00002       01/01/19     0
00003       01/01/19     1

我现在想知道的是,对于每个观察(行)是否在过去一年(不包括当前日期)中发生了该process_id的事件,并添加一列表示该标志的列。假设该行

00002       10/01/18     1

出现在表中,则输出表可能看起来像

process_id     date         event    previousEvent     
00001          01/01/12     0        NA
00002          01/01/12     1        NA
00003          01/01/12     0        NA
...            ...          ...      ...
00001          01/01/19     1        0
00002          01/01/19     0        1
00003          01/01/19     1        0

我目前的方法是使用dplyr工具包进行过滤,但是我认为由于它不是向量化方法,因此它可能不是最有效的处理方法。使用doSNOW包进行并行化处理,程序的主循环如下所示。它仅计算事件发生的次数来确定事件是否发生在去年。但是,即使是这种方法也要花费很长时间(对于我的机器上的这么多行,大约需要一个小时)

result <- foreach(i = 1:nrow(data),
              .options.snow=opts, .combine='rbind', .packages = 'dplyr') 
 %dopar%
{
  d <- nrow(data%>%
      filter(process_id %in% data[i,]$process_id ) %>%
      filter(date>= data[i,]$LastYearDate) %>%
      filter(date< data[i,]$date) %>%
      filter(event > 0))
  return(ifelse(d,1,0))
}

是否有更好的方法?我对R和用于过滤表格的许多技术很陌生。

2 个答案:

答案 0 :(得分:2)

您可以将this idiom与非等额联接相结合:

library(data.table)
library(lubridate)

df <- read.table(header=T, text="
process_id    date         event
00001       00/01/20     1
00002       00/01/20     1
00003       00/01/20     0
00001       01/01/19     1
00002       01/01/19     0
00003       01/01/19     1")

dt <- as.data.table(df)

dt[, date := as.POSIXct(date, format = "%y/%m/%d")]
dt[, prev_year := date - lubridate::dyears(1L)]

positives <- dt[.(1), .(process_id, date, event), on = "event"]

dt[, prev_event := positives[.SD,
                             .(x.event),
                             on = .(process_id, date < date, date >= prev_year),
                             mult = "last"]]

print(dt)
   process_id       date event  prev_year prev_event
1:          1 2000-01-20     1 1999-01-20         NA
2:          2 2000-01-20     1 1999-01-20         NA
3:          3 2000-01-20     0 1999-01-20         NA
4:          1 2001-01-19     1 2000-01-20          1
5:          2 2001-01-19     0 2000-01-20          1
6:          3 2001-01-19     1 2000-01-20         NA

如有必要,请调整日期格式, 然后在不需要时删除prev_year

如果您还想添加上一个事件发生的日期, 将print之前的行更改为:

dt[, `:=`(
  c("prev_event", "prev_date"),
  positives[.SD, .(x.event, x.date), on = .(process_id, date < date, date >= prev_year), mult = "last"]
)]

有点无耻的插头: 使用新版本的table.express, 您也可以将上面的代码写为:

library(table.express)
library(data.table)
library(lubridate)

dt <- as.data.table(df) %>%
  start_expr %>%
  mutate(date = as.POSIXct(date, format = "%y/%m/%d")) %>%
  mutate(prev_year = date - lubridate::dyears(1L)) %>%
  end_expr

positives <- dt %>%
  start_expr %>%
  filter_on(event = 1) %>%
  select(process_id, date, event) %>%
  end_expr

dt %>%
  start_expr %>%
  mutate_join(positives,
              process_id, date > date, prev_year <= date,
              mult = "last",
              .SDcols = c(prev_event = "event", prev_date = "date")) %>%
  end_expr

print(dt)
   process_id       date event  prev_year prev_event  prev_date
1:          1 2000-01-20     1 1999-01-20         NA       <NA>
2:          2 2000-01-20     1 1999-01-20         NA       <NA>
3:          3 2000-01-20     0 1999-01-20         NA       <NA>
4:          1 2001-01-19     1 2000-01-20          1 2000-01-20
5:          2 2001-01-19     0 2000-01-20          1 2000-01-20
6:          3 2001-01-19     1 2000-01-20         NA       <NA>

答案 1 :(得分:0)

我不确定这在本质上是否更好,但是这大概是另一种类似的方法。

CKFetchRecordsOperation(recordIDs: [CKRecord.ID])