我有一个数据框:
a<-c(1,1,1,1,1,1,1,1,1,1,1)
b<-c(100,100,100,100,100,100,100,100,100,100,100)
c<-c(1,3,1,1,3,1,1,3,1,1,3)
d<-c(3400,3403,3407,3408,3412,3423,3434,3436,3445,3454,3645)
df<-data.frame(d,b,c,a)
df
d b c a
1 3400 100 1 1
2 3403 100 3 1
3 3407 100 1 1
4 3408 100 1 1
5 3412 100 3 1
6 3423 100 1 1
7 3434 100 1 1
8 3436 100 3 1
9 3445 100 1 1
10 3454 100 1 1
11 3645 100 3 1
我想过滤总是一个rowpair,它满足以下条件:第一行的c列值必须是3,第二行的c列值必须是1,并且行对之间的d列值有<10。 所以这个例子中的预期输出应该是:
d b c a
2 3403 100 3 1
3 3407 100 1 1
8 3436 100 3 1
9 3445 100 1 1
我尝试了以下方法:
filter(df,first(c)==3,nth(c,2)==1,any(diff(d) < 10))
但由于某种原因,它不起作用。感谢您的帮助!
答案 0 :(得分:4)
您可以先使用 produce
建立第一对部分的索引:
which
然后在索引上对数据框进行子集加 1:
library(dplyr)
inds <- which(df$c == 3 & lead(df$c) == 1 & lead(df$d) - df$d < 10)
或者,您可以这样做:
df[sort(unique(c(inds, inds + 1))),]
d b c a
2 3403 100 3 1
3 3407 100 1 1
8 3436 100 3 1
9 3445 100 1 1
答案 1 :(得分:2)
下面的代码并不简单,但它产生了预期的结果。
library(dplyr)
df %>%
mutate(flag = cumsum(c == 3)) %>%
group_by(flag) %>%
slice_head(n = 2) %>%
filter(n() > 1) %>%
mutate(flag = flag*(diff(d) < 10)) %>%
ungroup() %>%
filter(flag > 0) %>%
select(-flag)
## A tibble: 4 x 4
# d b c a
# <dbl> <dbl> <dbl> <dbl>
#1 3403 100 3 1
#2 3407 100 1 1
#3 3436 100 3 1
#4 3445 100 1 1