规范形式保存不规则时间序列的矩阵?

时间:2017-12-17 18:19:24

标签: r matrix time-series zoo tidyverse

让我们说一群人po(最终是n维)的二维网格中移动一堆对象i * k。 / p>

每当某个p移动时,我会拍摄i x k网格的快照(这实际上是通过js回调发生的)。

因此,对于p Aliceo s c("foo", "bar),以及ik每个2,at,say,{ {1}},这就像

2017-12-24 18:00:00

,四秒钟之后,在 1 2 1 "foo" 2 "bar" ,比方说,

2017-12-26 18:00:04

对于其他一些 1 2 1 "foo" 2 "bar" p,我会得到类似的快照,但是,在不同时间,因为,Bob选择移动对象不同时期。

对于大多数分析,我只会查看每个Bob最终(最新)快照,然后愉快地p abind() p x i x k 1}}数组。

但我想要保留不定期订购的时间序列。 如何在R 中以聪明,规范的方式最好地存储这些数据?

由于我不能abind()超过不规则的时间点(因为他们每个人都不同),我的当前方法就是将快照放入每个p的列表,例如

data$alice <- list(
  `2017-12-24 18-00-00` = matrix(data = c("foo", NA, NA, "bar"), nrow = 2),
  `2017-12-24 18-00-04` = matrix(data = c("foo", NA, "bar", NA), nrow = 2))
data$bob <- ...

等等。 (也许,我更倾向于使用正确的lubricate datetimes作为列表元素属性,但这个详细信息)。

这样做没问题,但感觉很乱/很奇怪,原因有很多:

  1. 列表本身不支持时间序列信息,因此将它们添加为列表元素属性会感觉很乱。
  2. 该列表使得很难看出 all 各个矩阵具有相同的等级(必须如此)。 (我想这是不可避免的,因为我不能有意义地abind()
  3. 我的直觉主意通常很糟糕。必须有更好的方法。
  4. 我是时间序列的新手,我只是想确保我不是非常愚蠢而且(很差)重新发明轮子以解决一个规范解决的问题。 另外:这将成为一个包和一个S3类的一部分,所以我想要做到这一点。

    警告/旁白:

    • 我查看了zoo软件包,但是虽然它提供了不规则的时间间隔(我有),但它似乎没有提供的类不同的不规则的时间间隔。
    • 我不想以整齐的格式存储这些数据。我在这里Jeff Leek;网格的矩阵表示本质上是有意义的,我想保留它。还会有一些矩阵代数,如果应用于整洁的数据,它只会产生非常不透明的代码。也就是说,如果我在这里愚蠢,以及以整齐的形式存储这类数据的规范方式,我可以接受它。

    Ps:为无耻的伪代码/数学道歉。希望它仍然有助于使事情更清楚。

1 个答案:

答案 0 :(得分:3)

我有两个建议,虽然我不知道它们是否是规范的。&#34;您可以使用pdata.frame(来自plm包中的面板数据)或tibble

设置一些数据:

set.seed(123)
dat <- data.frame(
  person = c("Alice", "Alice", "Bob", "Bob"),
  time = as.POSIXct(runif(4, 1500000000, 1510000000), origin = "1970-01-01")
)
mats <- lapply(1:4, function(...) matrix(sample(1:4, 4), nc = 2, nr = 2))

pdata.frame方法将每个矩阵元素存储为一列,除了人员和时间标识符之外,还会为您提供i * k列。

library(plm)
dat_plm <- cbind(dat, as.data.frame(do.call(rbind, lapply(mats, as.vector))))
pdat <- pdata.frame(dat_plm, index = c("person", "time"), row.names = FALSE)
pdat
#   person                time V1 V2 V3 V4
# 1  Alice 2017-08-04 05:52:13  1  3  2  4
# 2  Alice 2017-08-26 08:13:42  2  4  3  1
# 4    Bob 2017-08-09 08:45:14  4  3  1  2
# 3    Bob 2017-10-28 11:20:55  1  3  2  4
str(pdat)
# Classes ‘pdata.frame’ and 'data.frame': 4 obs. of  6 variables:
#  $ person: Factor w/ 2 levels "Alice","Bob": 1 1 2 2
#   ..- attr(*, "names")= chr  "1" "2" "4" "3"
#   ..- attr(*, "index")=Classes ‘pindex’ and 'data.frame': 4 obs. of  2 variables:
#   .. ..$ person: Factor w/ 2 levels "Alice","Bob": 1 1 2 2
#   .. ..$ time  : Factor w/ 4 levels "2017-08-04 05:52:13",..: 1 3 2 4
# <snip>
#  - attr(*, "index")=Classes ‘pindex’ and 'data.frame':  4 obs. of  2 variables:
#   ..$ person: Factor w/ 2 levels "Alice","Bob": 1 1 2 2
#   ..$ time  : Factor w/ 4 levels "2017-08-04 05:52:13",..: 1 3 2 4

tibble更优雅:

library(tibble)
dat_tbl <- as_tibble(dat)
dat_tbl$mats <- mats
dat_tbl
#   person                time          mats
#   <fctr>              <dttm>        <list>
# 1  Alice 2017-08-04 05:52:13 <int [2 x 2]>
# 2  Alice 2017-08-26 08:13:42 <int [2 x 2]>
# 3    Bob 2017-10-28 11:20:55 <int [2 x 2]>
# 4    Bob 2017-08-09 08:45:14 <int [2 x 2]>

例如,它允许您为每个人拍摄最新的快照:

library(dplyr)
arrange(dat_tbl, time) %>%
  group_by(person) %>%
  slice(n())
# # A tibble: 2 x 3
# # Groups:   person [2]
#   person                time          mats
#   <fctr>              <dttm>        <list>
# 1  Alice 2017-08-26 08:13:42 <int [2 x 2]>
# 2    Bob 2017-10-28 11:20:55 <int [2 x 2]>