如果你没有提前知道长度,如何在R中创建向量?

时间:2016-07-26 15:07:57

标签: r vector dataframe append

I have read附加到R中的向量是不好的做法。在那种情况下,当我想创建一个矢量但我不知道它的长度时,我该怎么办?

我正在查看一个数据框,其中包含有关人员何时在特定位置附近的条目。每个条目都包含有关人员和附近时间的信息,但单个人可以有许多条目。

#    loc  id        time
# 1:   z   A       00:00
# 2:   z   A       00:01
# 3:   z   B       00:02
# 4:   z   A       00:02
# 5:   z   C       00:05
# 6:   z   C       00:07
# 7:   z   A       00:08
# 8:   z   A       00:09
# 9:   z   C       00:09
#10:   z   C       00:10

我想创建一个新的数据框,其中每个条目都是"访问"由一个人整理来自一个人的任何条目及时关闭。

#    loc  id   starttime  endtime
# 1:   z   A       00:00   00:02
# 2:   z   C       00:05   00:07
# 3:   z   A       00:08   00:09
# 4:   z   C       00:09   00:10

对于第一个数据框中的单个人,它们可能是50个条目,可以整理成3个"访问"在新的数据框架中。我不提前知道有多少"访问"有。那么我应该如何创建这个数据框呢?

我知道rbind,但在这种情况下,我会逐一绑定每一行。这是个好主意吗?

另一种选择是两次通过第一个数据帧,一次计算出第二个数据帧的大小并再次填充它,但这似乎效率更低。

2 个答案:

答案 0 :(得分:4)

我不相信你需要这个(对于你描述得不好的实际问题,可能有更好的解决方案),但我会在第一段回答这个问题。如果您不知道结果向量需要多大,则将其初始化为合理的大小,并根据需要将其增长为块。这限制了载体需要生长的时间。

set.seed(42)
vec <- numeric(100) #initialize a chunk
i <- 0

repeat {
  test <- rnorm(1)
  if (test > 3) break
  i <- i + 1
  #grow in chunks:
  if (length(vec) < i) vec <- c(vec, numeric(100)) 
  vec[i] <- test
}

#shorten to final length
vec <- vec[seq_len(i)]

你实际上在现实中做了类似的事情。如果您购买一个新货架,您可以购买它,以便您有足够的空间购买未来的书籍。当它满了,你买下一个(或更大的)。

答案 1 :(得分:1)

这并没有明确回答您的问题,但演示了如何使用cut创建所需的数据来创建&#34;访问&#34;然后计算唯一的访问次数。

library(data.table)
set.seed(1234)
dat <- data.table(visit_time = sample(20, 100, replace = TRUE), 
                  id = sample(LETTERS[1:5], 100, replace = TRUE))
dat[ , visit := cut(visit_time, breaks = seq(0, 20, 5))]
dat[ , list(nvisits = length(unique(visit))), by = id]
#    id nvisits
# 1:  A       4
# 2:  C       4
# 3:  B       4
# 4:  D       4
# 5:  E       4

运行以下内容可显示他们在同一时间段/访问中所在位置的次数:

dat[ , .N, by = list(id, visit)]
#     id   visit N
# 1:   A   (0,5] 6
# 2:   C (10,15] 5
# 3:   B (10,15] 6
# 4:   A (15,20] 3
# 5:   A (10,15] 5
# 6:   D (10,15] 6
# 7:   E  (5,10] 7
# 8:   B  (5,10] 6
# 9:   E (15,20] 4
# 10:  D   (0,5] 6
# 11:  D  (5,10] 4
# 12:  E   (0,5] 9
# 13:  C   (0,5] 4
# 14:  B (15,20] 1
# 15:  C (15,20] 9
# 16:  B   (0,5] 6
# 17:  A  (5,10] 2
# 18:  C  (5,10] 5
# 19:  D (15,20] 2
# 20:  E (10,15] 4

编辑以显示剪切功能如何随时间变化:

我从this excellent answer获取了randTime函数。

randTime <- function(N, st, et) {
  st <- as.POSIXct(st)
  et <- as.POSIXct(et)
  dt <- as.numeric(difftime(et,st,unit="sec"))
  ev <- sort(runif(N, 0, dt))
  rt <- st + ev
  rt
}

set.seed(1234)
st <- as.POSIXct("2012/01/01 12:00")
et <- as.POSIXct("2012/01/01 18:00")
dat2 <- data.table(visit_time = randTime(100, st, et), 
                  id = sample(LETTERS[1:5], 100, replace = TRUE))
dat2[ , visit := as.character(cut(visit_time, breaks = seq(st, et, "15 min")))]
dat2[ , length(unique(visit)), by = id]
#    id V1
# 1:  A 11
# 2:  C 13
# 3:  B 14
# 4:  D 14
# 5:  E 14