存在一个带有前行和后行的数据集,其特征值为零。如何以一种优雅的方式删除此类行?
# Library
library(tidyverse)
# 1. Input
data.frame(
id = c(1:10),
value = c(0, 0, 1, 3, 0, 1, 2, 8, 9, 0))
# 2. Delete leading and trimming rows with 'value = 0'
# ...
# 3. Desired outcome
data.frame(
id = c(3:9),
value = c(1, 3, 0, 1, 2, 8, 9))
谢谢。
答案 0 :(得分:5)
一个选项是
library(dplyr)
df1 %>%
filter( cumsum(value) > 0 & rev(cumsum(rev(value)) > 0))
# id value
#1 3 1
#2 4 3
#3 5 0
#4 6 1
#5 7 2
#6 8 8
#7 9 9
答案 1 :(得分:1)
以下是一个简单的技巧:
df %>%
mutate(value2 = cumsum(value)) %>%
filter(value2 != 0) %>%
filter(!(value2 == max(value2) & value == 0)) %>%
select(-value2)
id value
1 3 1
2 4 3
3 5 0
4 6 1
5 7 2
6 8 8
7 9 9
答案 2 :(得分:1)
一个选项是检查值等于0
且rleid(value)
是其最小值还是最大值(即您位于第一组还是最后一组值中)。即使您要保留的非零值是负数,这也将起作用。
library(data.table)
setDT(df)
df[!(value == 0 & (rid <- rleid(value)) %in% range(rid))]
# id value
# 1: 3 1
# 2: 4 3
# 3: 5 0
# 4: 6 1
# 5: 7 2
# 6: 8 8
# 7: 9 9
如果您事先知道第一个和最后一个值始终为零,则只需检查第二个条件即可
df[!((rid <- rleid(value)) %in% range(rid))]