我有一个大的(20,000个obs)data.frame包含每小时值并按唯一ID分组。我还有一个日期列表(每个日期都出现在data.frame中)。我试图将日期与data.frame匹配,然后从匹配日期中提取介于+或 - 某个时间间隔之间的日期时间。例如,在以下data.frame中:
setAs("character","myDate", function(from) as.POSIXct(from, "%m/%e/%Y %H:%M", tz="UTC"))
# previous function formats date input as UTC
df <- read.table(textConnection("datetimeUTC id value
'5/1/2013 5:00' 153 0.53
'5/1/2013 6:00' 153 0.46
'5/1/2013 7:00' 153 0.53
'5/1/2013 8:00' 153 0.46
'5/1/2013 9:00' 153 0.44
'5/1/2013 10:00' 153 0.48
'5/1/2013 11:00' 153 0.49
'5/1/2013 12:00' 153 0.49
'5/1/2013 13:00' 153 0.51
'5/1/2013 14:00' 153 0.53
'11/24/2013 9:00' 154 0.45
'11/24/2013 10:00' 154 0.46
'11/24/2013 11:00' 154 0.49
'11/24/2013 12:00' 154 0.55
'11/24/2013 13:00' 154 0.61
'11/24/2013 14:00' 154 0.7
'11/24/2013 15:00' 154 0.74
'11/24/2013 16:00' 154 0.78
'11/24/2013 17:00' 154 0.77
'11/24/2013 18:00' 154 0.79
'8/2/2015 1:00' 240 0.2
'8/2/2015 2:00' 240 0.2
'8/2/2015 3:00' 240 0.2
'8/2/2015 4:00' 240 0.22
'8/2/2015 5:00' 240 0.22
'8/2/2015 6:00' 240 0.27
'8/2/2015 7:00' 240 0.23
'8/2/2015 8:00' 240 0.21
'8/2/2015 9:00' 240 0.22
'8/2/2015 10:00' 240 0.22
'8/2/2015 11:00' 240 0.21
'8/2/2015 12:00' 240 0.21
'8/2/2015 13:00' 240 0.21
'8/2/2015 14:00' 240 0.22
'8/2/2015 15:00' 240 0.24
'8/2/2015 16:00' 240 0.25
'8/2/2015 17:00' 240 0.12
'8/2/2015 18:00' 240 0.32
"), header=TRUE, colClasses=c("myDate", "character", "numeric"))
我想从每个ID中提取匹配日期时间之前或之后2小时的所有观察结果:
key <-read.table(textConnection("
datetimeUTC id
'5/1/2013 9:00' 153
'11/24/2013 14:00' 154
'8/2/2015 5:00' 240
'8/2/2015 15:00' 240"), header=TRUE, colClasses=c("myDate", "character"))
所需的结果如下:
result <- read.table(textConnection("datetimeUTC id value
'5/1/2013 7:00' 153 0.53
'5/1/2013 8:00' 153 0.46
'5/1/2013 9:00' 153 0.44
'5/1/2013 10:00' 153 0.48
'5/1/2013 11:00' 153 0.49
'11/24/2013 12:00' 154 0.55
'11/24/2013 13:00' 154 0.61
'11/24/2013 14:00' 154 0.7
'11/24/2013 15:00' 154 0.74
'11/24/2013 16:00' 154 0.78
'8/2/2015 3:00' 240 0.2
'8/2/2015 4:00' 240 0.22
'8/2/2015 5:00' 240 0.22
'8/2/2015 6:00' 240 0.27
'8/2/2015 7:00' 240 0.23
'8/2/2015 13:00' 240 0.21
'8/2/2015 14:00' 240 0.22
'8/2/2015 15:00' 240 0.24
'8/2/2015 16:00' 240 0.25
'8/2/2015 17:00' 240 0.12
"), header=TRUE, colClasses=c("myDate", "character", "numeric"))
似乎是一项简单的任务,但我似乎无法得到我想要的东西。我尝试了几件事。
result <-df[which(df$id == key$id &(df$datetimeUTC >= key$datetimeUTC -2*60*60 |df$datetimeUTC <= key$datetimeUTC + 2*60*60 )),]
library(data.table)
dt <- setDT(df)
dt[dt$datetimeUTC %between% c(dt$datetimeUTC - 2*60*60,dt$datetimeUTC + 2*60*60) ]
答案 0 :(得分:4)
为您提供了几个data.table
个解决方案
<强> 1。笛卡尔加入
将所有内容加入,然后过滤掉您不想要的内容
library(data.table)
dt <- as.data.table(df)
dt_key <- as.data.table(key)
dt_join <- dt[ dt_key, on="id", allow.cartesian=T][difftime(i.datetimeUTC, datetimeUTC, units="hours") <= 2 & difftime(i.datetimeUTC, datetimeUTC, units="hours") >= -2]
# datetimeUTC id value i.datetimeUTC
#1: 2013-05-01 07:00:00 153 0.53 2013-05-01 09:00:00
#2: 2013-05-01 08:00:00 153 0.46 2013-05-01 09:00:00
#3: 2013-05-01 09:00:00 153 0.44 2013-05-01 09:00:00
#4: 2013-05-01 10:00:00 153 0.48 2013-05-01 09:00:00
... etc
<强> 2。每个条件我
在我之前的一个问题中使用an answer,在j
中指定EACHI
在联接中必须满足的条件。
dt[ dt_key,
{ idx = difftime(i.datetimeUTC, datetimeUTC, units="hours") <= 2 & difftime(i.datetimeUTC, datetimeUTC, units="hours") >= -2
.(datetime = datetimeUTC[idx],
value = value[idx])
},
on=c("id"),
by=.EACHI]
答案 1 :(得分:4)
@ Tospig的解决方案非常好。但是现在,使用当前开发版本的data.table中新实现的non-equi
连接功能,这非常简单:
require(data.table) # v1.9.7+
setDT(df)
setDT(key) ## converting data.frames to data.tables by reference
df[key, .(x.datetimeUTC, i.datetimeUTC, id, value),
on=.(datetimeUTC >= d1, datetimeUTC <= d2), nomatch=0L]
就是这样。
请注意,这会直接执行条件连接 ,因此内存效率高(与执行笛卡尔连接相反,然后根据条件进行过滤)和快速(因为匹配给定条件的行是使用修改的二进制搜索获得的,而不是@ tospig的答案中显示的by=.EACHI
循环变量。
请参阅devel版本here的安装说明。
答案 2 :(得分:1)
使用library(lubridate)
do.call(rbind, apply(key,1, FUN=function(k)
df[df$id == k['id'] &
df$datetimeUTC >= ymd_hms( k['datetimeUTC']) -hours(2) &
df$datetimeUTC <= ymd_hms(k['datetimeUTC']) +hours(2),]))
1: 2013-05-01 07:00:00 153 0.53
2: 2013-05-01 08:00:00 153 0.46
3: 2013-05-01 09:00:00 153 0.44
4: 2013-05-01 10:00:00 153 0.48
5: 2013-05-01 11:00:00 153 0.49
6: 2013-11-24 12:00:00 154 0.55
7: 2013-11-24 13:00:00 154 0.61
8: 2013-11-24 14:00:00 154 0.70
9: 2013-11-24 15:00:00 154 0.74
10: 2013-11-24 16:00:00 154 0.78
11: 2015-08-02 03:00:00 240 0.20
12: 2015-08-02 04:00:00 240 0.22
13: 2015-08-02 05:00:00 240 0.22
14: 2015-08-02 06:00:00 240 0.27
15: 2015-08-02 07:00:00 240 0.23
16: 2015-08-02 13:00:00 240 0.21
17: 2015-08-02 14:00:00 240 0.22
18: 2015-08-02 15:00:00 240 0.24
19: 2015-08-02 16:00:00 240 0.25
20: 2015-08-02 17:00:00 240 0.12
即可:
print('\b ', end="", flush=True)
sys.stdout.write('\010')