pcd <- data.frame(tripNo = c(618, 618, 610, 610, 610, 619),
procDate = as.Date(c('2016-03-02', '2016-03-03', '2016-03-02', '2016-03-03', '2016-03-02', '2016-03-03')),
delay = c(7.45, 12.90, 11.88, 6.66, 12.50, 9.41) )
我想标记在第二天的延迟比前一天的最后一天短的两个不同日期处理的旅行中的不一致。我现在这样做了:
pcd %>%
arrange(tripNo, procDate, delay) %>%
group_by(tripNo) %>%
mutate(delayErr = (row_number() != 1) & (delay < lag(delay)),
Alert = ifelse(delayErr, '!', '')) %>%
select(tripNo, procDate, delay, delayErr, Alert)
tripNo procDate delay delayErr Alert
(dbl) (date) (dbl) (lgl) (chr)
1 610 2016-03-02 11.88 FALSE
2 610 2016-03-02 12.50 FALSE
3 610 2016-03-03 6.66 TRUE !
4 618 2016-03-02 7.45 FALSE
5 618 2016-03-03 12.90 FALSE
6 619 2016-03-03 9.41 FALSE
所以这个工作正常,我的问题是关于我的第一次尝试,我尝试使用substr:
pcd %>% arrange(tripNo, procDate, delay) %>%
group_by(tripNo) %>%
mutate(delayErr = (row_number() != 1) & (delay < lag(delay)),
Alert = substr(' !', delayErr + 1, delayErr + 1) ) %>% # <<< This is the only change
select(tripNo, procDate, delay, delayErr, Alert)
tripNo procDate delay delayErr Alert
(dbl) (date) (dbl) (lgl) (chr)
1 610 2016-03-02 11.88 FALSE
2 610 2016-03-02 12.50 FALSE
3 610 2016-03-03 6.66 TRUE
4 618 2016-03-02 7.45 FALSE
5 618 2016-03-03 12.90 FALSE
6 619 2016-03-03 9.41 FALSE
使用此代码,警报不会像我预期的那样显示。 有人可以向我解释为什么第二个dplyr查询不起作用吗? 谢谢!
答案 0 :(得分:5)
已有substr
的矢量化版本,即substring
pcd %>%
arrange(tripNo, procDate, delay) %>%
group_by(tripNo) %>%
mutate(delayErr = (row_number() != 1) & (delay < lag(delay)),
Alert = substring(' !', delayErr +1, delayErr +1)) %>%
select(tripNo, procDate, delay, delayErr, Alert)
# tripNo procDate delay delayErr Alert
# (dbl) (date) (dbl) (lgl) (chr)
#1 610 2016-03-02 11.88 FALSE
#2 610 2016-03-02 12.50 FALSE
#3 610 2016-03-03 6.66 TRUE !
#4 618 2016-03-02 7.45 FALSE
#5 618 2016-03-03 12.90 FALSE
#6 619 2016-03-03 9.41 FALSE
答案 1 :(得分:1)
这是因为substr
期望单个值作为第二个和第三个参数,但是您提供数字向量。您可以使用
substr2 <- Vectorize(substr)
如果您使用此新功能替换原始功能,它应该按预期工作。