在载体中提取第一个连续序列

时间:2017-07-13 07:42:14

标签: r indexing continuous

我有一个矢量:

as <- c(1,2,3,4,5,9)

我需要从索引1开始提取向量中的第一个连续序列,以便输出如下:

1 2 3 4 5

这样做是否有智能功能,或者我必须做一些不那么优雅的事情:

a <- c(1,2,3,4,5,9)
is_continunous <- c()
for (i in 1:length(a)) {
  if(a[i+1] - a[i] == 1) {
    is_continunous <- c(is_continunous, i)
  } else {
    break
  }
}

continunous_numbers <- c()
if(is_continunous[1] == 1) {
  is_continunous <- c(is_continunous, length(is_continunous)+1)
  continunous_numbers <- a[is_continunous]
}

它可以解决这个问题,但我希望有一个功能可以做到这一点。

2 个答案:

答案 0 :(得分:5)

如果连续序列的索引仅从索引1或第一个序列开始,无论起始索引是什么,它都不清楚你需要什么。

在这两种情况下,您需要首先检查相邻元素之间的差异:

d_as <- diff(as)

如果只有从索引1开始才需要第一个序列:

if(d_as[1]==1) 1:(rle(d_as)$lengths[1]+1) else NULL
# [1] 1 2 3 4 5

rle允许知道每个相同值的连续序列的长度和值。

如果您需要第一个连续序列,无论起始索引是什么:

rle_d_as <- rle(d_as)
which(d_as==1)[1]+(0:(rle_d_as$lengths[rle_d_as$values==1][1]))

示例(第二个选项):

as <- c(1,2,3,4,5,9) 
d_as <- diff(as)
rle_d_as <- rle(d_as)
which(d_as==1)[1]+(0:(rle_d_as$lengths[rle_d_as$values==1][1]))
#[1] 1 2 3 4 5

as <- c(4,3,1,2,3,4,5,9)
d_as <- diff(as)
rle_d_as <- rle(d_as)
which(d_as==1)[1]+(0:(rle_d_as$lengths[rle_d_as$values==1][1]))
# [1] 3 4 5 6 7

as <- c(1, 2, 3, 6, 7, 8)
d_as <- diff(as)
rle_d_as <- rle(d_as)
which(d_as==1)[1]+(0:(rle_d_as$lengths[rle_d_as$values==1][1]))
# [1] 1 2 3

答案 1 :(得分:3)

捕获序列的一种简单方法是找到向量的diff并使用diff == 1加上下一个元素获取所有元素,即

d1<- which(diff(as) == 1)
as[c(d1, d1[length(d1)]+1)]

注意

只有在载体中只有一个序列时才会起作用。但是,如果我们想让它更通用,那么我建议创建一个函数,

get_seq <- function(vec){
  d1 <-  which(diff(as) == 1)
  if(all(diff(d1) == 1)){
    return(c(d1, d1[length(d1)]+1))
  }else{
    d2 <- split(d1, cumsum(c(1, diff(d1) != 1)))[[1]]
    return(c(d2, d2[length(d2)]+1))
  }
}


#testing it

as <- c(3, 5, 1, 2, 3, 4, 9, 7, 5, 4, 5, 6, 7, 8)
get_seq(as)
#[1] 3 4 5 6

as <- c(8, 9, 10, 11, 1, 2, 3, 4, 7, 8, 9, 10)
get_seq(as)
#[1]  1 2 3 4

as <- c(1, 2, 3, 4, 5, 6, 11)
get_seq(as)
#[1] 1 2 3 4 5 6