我有3个data.frames:
# build first data.frame
Date1 = seq(from = as.POSIXct("1991-01-01 00:00"),
to = as.POSIXct("1991-12-31 23:00"), by = 60)
Dat1 <- data.frame(DateTime = Date1,
x1 = rnorm(length(Date1)))
# build second data.frame
Date2 <- seq(from = as.POSIXct("1991-03-01 03:30"),
to = as.POSIXct("1991-11-23 22:00"), by = 60)
Dat2 <- data.frame(DateTime = Date2,
x1 = rnorm(length(Date2)))
# build third data.frame
Date3 <- seq(from = as.POSIXct("1991-02-08 01:30"),
to = as.POSIXct("1991-08-23 11:00"), by = 60)
Dat3Matrix <- matrix(data = rnorm(length(Date3)*3), ncol = 3)
Dat3 <- data.frame(DateTime = Date3,
x1 = Dat3Matrix)
我现在正试图从三个data.frames中移除时间段,这些时间段不包含在其他数据框架中(如果这是有意义的话)。最终我的目标是让三个数据框具有相同的开始和结束日期。我该怎么做呢?
我在考虑以下几点:
newDat1 <- subset(Dat1,Dat1$DateTime %in% Dat2$DateTime)
但我正在寻找一种方法将其应用于任意数量的数据帧,例如,如果我有10个数据帧,该方法仍然有效。我生成的函数应该对所有数据框进行子集化,并使用相同的开始和结束日期返回它们。
因此,我想生成一个函数,该函数接收任意数量的数据帧,然后返回具有相同开始日期和结束日期的相同数据帧,这可能吗?
答案 0 :(得分:2)
尝试这样的事情:
list
个数据框作为输入的函数lapply
查找列表中每个元素的DateTime
的最小值和最大值do.call
和rbind
将结果拼接在数据框中lapply
来完成子集代码:
foo <- function(ldf){
x <- lapply(ldf, function(x)data.frame(min=min(x$DateTime), max=max(x$DateTime)))
x <- do.call(rbind, x)
bounds <- with(x, c(max(min), min(max)))
lapply(ldf, function(x)x[x$DateTime >= bounds[1] & x$DateTime <= bounds[2], ])
}
x <- foo(list(Dat1, Dat2, Dat3))
str(x)
结果:
List of 3
$ :'data.frame': 252391 obs. of 2 variables:
..$ DateTime: POSIXct[1:252391], format: "1991-03-01 03:30:00" "1991-03-01 03:31:00" ...
..$ x1 : num [1:252391] 0.2393 0.6831 1.5666 0.0303 -1.1226 ...
$ :'data.frame': 252391 obs. of 2 variables:
..$ DateTime: POSIXct[1:252391], format: "1991-03-01 03:30:00" "1991-03-01 03:31:00" ...
..$ x1 : num [1:252391] -0.555 0.231 1.212 0.363 -0.943 ...
$ :'data.frame': 252391 obs. of 4 variables:
..$ DateTime: POSIXct[1:252391], format: "1991-03-01 03:30:00" "1991-03-01 03:31:00" ...
..$ x1.1 : num [1:252391] 0.4729 0.8238 1.8854 -0.0781 -1.5236 ...
..$ x1.2 : num [1:252391] 1.002 -0.546 0.279 -0.817 -0.844 ...
..$ x1.3 : num [1:252391] -0.616 1.313 -0.856 0.648 -0.593 ...
答案 1 :(得分:1)
首先,在这种情况下,我总是收集data.frame
中的所有list
,您可以使用lapply
轻松迭代这些mydata <- list( Dat1, Dat2, Dat3, ... )
:
datcols <- lapply( mydata, function(x) x$DateTime )
isec <- Reduce( intersect, datcols )
如果您要查找所有DateTime列的交集,可以通过以下方式轻松完成:
data.frame
最后,您可以通过
对lapply( mydata, function(x) x[ x$DateTime %in% isec, ] )
进行子集化
{{1}}