我有100个文本文件,其中包含在不同时间点开始和结束的时间序列。我想提取系列中常见时间段的值。 使用以下代码生成示例数据:
set.seed(1)
D1 = data.frame(time = seq(ISOdatetime(2012, 6, 26, 3, 15, 00),
length = 500, by = 900),
value = rnorm(500))
D2 = data.frame(time = seq(ISOdatetime(2012, 6, 24, 5, 30, 00),
length = 541, by = 900),
value = rnorm(541))
D3 = data.frame(time = seq(ISOdatetime(2012, 6, 23, 5, 45, 00),
length = 700, by = 900),
value = rnorm(700))
此数据将为您提供3个时间序列的开始和结束时间以及不同的时间。我希望只保留常用时间段的值并删除其余时间。即 如果,
然后我希望保留三个时间序列的交集数据,即数据对应于: -
我搜索了SO和其他网站,但没有找到任何解决方案。需要帮助。 我如何实现这一目标?
答案 0 :(得分:4)
您似乎需要熟悉xts
包。将您的数据框转换为xts
时间序列对象,然后使用merge
。 merge
将合并所有值,因此如果您希望所有值都出现,您还可以使用na.omit
。
require(xts)
D1 = xts(d1$Value, d1$Time)
D2 = xts(d2$Value, d2$Time)
D3 = xts(d3$Value, d3$Time)
temp = merge(D1, D2, D3)
这是一些示例输出。对于head
和tail
,请注意NA
值的存在。
head(temp)
# D1 D2 D3
# 2012-06-26 13:15:19 -0.50219235 NA NA
# 2012-06-26 13:30:19 0.13153117 NA NA
# 2012-06-26 13:45:19 -0.07891709 NA NA
# 2012-06-26 14:00:19 0.88678481 NA NA
# 2012-06-26 14:15:19 0.11697127 NA NA
# 2012-06-26 14:30:19 0.31863009 NA NA
tail(temp)
# D1 D2 D3
# 2012-07-04 05:45:19 NA NA 1.4799645
# 2012-07-04 06:00:19 NA NA -0.3942801
# 2012-07-04 06:15:19 NA NA -0.6767234
# 2012-07-04 06:30:19 NA NA -0.2425192
# 2012-07-04 06:45:19 NA NA 0.4547177
# 2012-07-04 07:00:19 NA NA 1.1712661
head(na.omit(temp))
# D1 D2 D3
# 2012-06-27 14:15:19 -0.3329234 -1.63230970 0.75619287
# 2012-06-27 14:30:19 1.3631137 -0.06299626 -1.36131851
# 2012-06-27 14:45:19 -0.4691473 -0.70544686 -0.60876462
# 2012-06-27 15:00:19 0.8428756 -0.31417818 -0.21174696
# 2012-06-27 15:15:19 -1.4579937 -0.26694627 -0.67847242
# 2012-06-27 15:30:19 -0.4003059 0.15315947 0.06665787
tail(na.omit(temp))
# D1 D2 D3
# 2012-07-01 16:45:19 -0.49419020 1.1911322 2.73143169
# 2012-07-01 17:00:19 -1.71111303 0.7613245 0.57057667
# 2012-07-01 17:15:19 0.04005805 -0.1210687 1.32083870
# 2012-07-01 17:30:19 -0.56114348 -1.2250590 0.09951626
# 2012-07-01 17:45:19 -2.55736206 -0.1637461 -0.39435301
# 2012-07-01 18:00:19 -0.69677881 -1.3138963 0.63649492