我正在分析由几个环境变量组成的复杂数据集中的时间模式以及来自各种动物物种的活动数据。这些数据已通过多个实验设置收集,每个设置的数据每分钟存储一次。该项目已经运行了几年,所以我的数据集相当大。
我的一个数据集的前几行看起来像这样:
> head(setup_01)
DateTime Film_number unused PIR Wheel Temperature LightOld LightDay LightNight LightUV IDnumbers error mouse shrew vole rat frog rest extra_info odour
1 2015-03-10 12:27:10 x 0 0 13.40 1471.34 -0.97 1331.29 700.42 no error 0 0 0 0 0 0 1
2 2015-03-10 12:28:10 x 0 0 13.43 1471.38 -1.07 1291.11 731.32 no error 0 0 0 0 0 0 1
3 2015-03-10 12:29:10 x 0 0 13.31 1471.24 -1.08 1368.57 1016.02 no error 0 0 0 0 0 0 1
由于我想将这些变量与季节中的日出和日落等各种自然循环联系起来,我已经使用包maptools
来计算日出和日落时间
library(maptools)
gpclibPermit()
#set coordinates
crds=c(4.4900,52.1610)
# download the sunrise/sunset/etc data
setup_01$sunrise=sunriset(matrix(crds,nrow=1),dateTime=as.POSIXct(setup_01$DateTime),POSIXct.out=TRUE,direction="sunrise")
setup_01$sunset=sunriset(matrix(crds,nrow=1),dateTime=as.POSIXct(setup_01$DateTime),POSIXct.out=TRUE,direction="sunset")
#create a variable that's 0 except at sunrise, and one that's 0 except at sunset
setup_01$sunrise_act=0
setup_01$sunset_act=0
setup_01[abs(unclass(setup_01[,"DateTime"])-unclass(setup_01[,"sunrise"]$time))<30,]$sunrise_act=1
setup_01[abs(unclass(setup_01[,"DateTime"])-unclass(setup_01[,"sunset"]$time))<30,]$sunset_act=1
由于大多数动物的行为不同,取决于它是白天还是黑夜,我使用日落/日出时间来计算一个新变量,该变量在夜间为0,在白天为1:
#create a variable that's 0 at night and 1 at daytime
setup_01$daytime=0
setup_01[setup_01[,"DateTime"]>setup_01[,"sunrise"]$time & setup_01[,"DateTime"]<setup_01[,"sunset"]$time,]$daytime=1
到目前为止,非常好...... maptools
甚至可以使用民用/航海/天文黄昏和黎明的开始而不是日出和日落。
然而,这是我的问题开始的地方。我想在实验中记录所有的日子。而不是在<午夜增加日间计数器,这是通常的,很容易做到的,我想在日落增加日间计数器(或者可能在未来的实验中增加另一个可移动的时间)像日出,航海黄昏和黎明,...)。由于日落并非每天都在同一时间发生,因此对我来说,这不是一个直截了当的问题。
我只提出for
循环,这不是一种很好的做事方式。另外,考虑到我在几个设置中每分钟收集一次超过6年的数据点,我可以坐下来观察构造板移动,而R贯穿一大堆这样的循环:
setup_01$day=0
day<-1
for(i in 1:nrow(setup_01)){
setup_01[i,]$day<-day
if(setup_01[i,]$sunset_act==1){
day<-day+1
}
}
除了丑陋和缓慢之外,这段代码还有一个大问题:它不处理缺失的值。有时,由于设备故障,数据根本没有记录数小时或数天。如果在日落期间未记录任何数据,则上述代码不会增加日期计数器。这意味着我需要 - 不知何故 - 合并日期/时间代码。自实验开始以来,很容易创建一个天数变量:
setup_01$daynumber<-as.integer(ceiling(difftime(setup_01$DateTime, setup_01$DateTime[1], units = "days")))
也许可以使用这些数字,可能与Heroka's不错rle
- 算法结合使用。
我使用dput
从一个设置中创建了几个月的数据,包括一些大块的缺失数据,以及新创建的变量(如本文和{{3中所述) }}回答)可用Heroka's。
我已经找到了更好,更好,特别快的东西,但却无法想出一个好主意。我已经摆弄了我的数据帧子集,但得出的结论是它可能是一种愚蠢的方法。我查看了maptools
,lubridate
和GeoLight
。我搜索了Google,Stack Overflow和各种书籍,比如Hadley Wickham的精彩 Advanced R 。一切都无济于事。也许我错过了一些明显的东西。我希望有人可以帮助我。
答案 0 :(得分:3)
我想出了生成的0和1的解决方案(因为你已经生成了这些),并且它适用于游程长度。
#sunset/sunrise is series of 0's and 1's indicating night and daytime, so solution that works for random sequence
#will work for OP's dataset
set.seed(10)
sunset <- c(1,rbinom(20,1,0.5))
#counter needs to be x for sequence of 11111 (day) and 0000(night), and then increase when 0 reappears
#counter starts at 1
#intermediate step: number each half-day
rle_sunset <- rle(sunset)
period <- rep(1:length(rle_sunset$lengths),rle_sunset$lengths)
#calculate day so that each two subsequent periods are one day
day <- ceiling(period/2)
> cbind(sunset,period,day)
sunset period day
[1,] 1 1 1
[2,] 1 1 1
[3,] 0 2 1
[4,] 0 2 1
[5,] 1 3 2
[6,] 0 4 2
[7,] 0 4 2
[8,] 0 4 2
[9,] 0 4 2
[10,] 1 5 3
[11,] 0 6 3
[12,] 1 7 4
[13,] 1 7 4
[14,] 0 8 4
[15,] 1 9 5
[16,] 0 10 5
[17,] 0 10 5
[18,] 0 10 5
[19,] 0 10 5
[20,] 0 10 5
[21,] 1 11 6
答案 1 :(得分:1)
我更喜欢基于预先计算的表格的解决方案。这比较慢,但我发现它更清楚。然后我使用dplyr
来安排我需要的信息。
让我说明我的意思。为了举例,我创建了一个日落时间列表。当然,您需要计算实际值。
library(dplyr)
n.obs=1000
set.seed(10)
t0 <- as.POSIXct('2015-03-08 18:00:00')
artificial.sunsets <- data.frame(num.day= seq(0,n.obs+35)) %>% mutate(sunset=cumsum(rlnorm(length(num.day))*30)+t0 + 24*3600*num.day)
artificial.sunsets
包含日期编号和日落时间,但也可能包含有关当天的更多信息。
还有一些人工数据:
t0 <- as.POSIXct('2015-03-10 12:27:10')
test.data <- data.frame(DateTime=t0+ seq(0, n.obs*24*3600, by=3600), observation=rnorm(24*n.obs+1))
然后可以使用以下方法找到之前的日落:
find.sunset.before <- function(x){
cbind(x,artificial.sunsets %>% filter(sunset < x$DateTime) %>% tail(.,n=1))
}
data.with.sunset=test.data %>% rowwise() %>% do(find.sunset.before(.)) %>% ungroup()%>% mutate(rel.time = DateTime-sunset)
head(data.with.sunset)
结果表将包含另外三列1)相应的日期编号2)相应的日落时间,以及3)日落后的时间。
由于日期编号发生在另一个表格中,因此这应该可以抵御丢失的测量。您也可以轻松修改算法以使用不同的时间,甚至可以应用几个。
使用data.table可以更快地完成所有这些:
library(data.table)
dt1 <- data.table(artificial.sunsets)
dt2 <- data.table(test.data)
dt1[,DateTime:=sunset]
setkey(dt1, DateTime)
setkey(dt2, DateTime)
r <- dt1[dt2,roll=TRUE]
r[,time.diff:=DateTime-sunset]
我尝试用system.time计时1000次观察 - 前一次需要大约1m,data.table解决方案是0.011s。