R:选择高于特定阈值的n个连续行中的第一行

时间:2015-07-12 22:35:19

标签: r dataframe row dplyr

我有一个包含MRN,日期和测试值的数据框。

我需要选择 三个 连续值大于0.5的每个MRN的所有 第一个 行。< / p>

这是数据的示例版本:

   MRN Collected_Date   ANC
1  001     2015-01-02 0.345
2  001     2015-01-03 0.532
3  001     2015-01-04 0.843
4  001     2015-01-05 0.932
5  002     2015-03-03 0.012
6  002     2015-03-05 0.022
7  002     2015-03-06 0.543
8  002     2015-03-07 0.563
9  003     2015-08-02 0.343
10 003     2015-08-03 0.500
11 003     2015-08-04 0.734
12 003     2015-08-05 0.455
13 004     2014-01-02 0.001
14 004     2014-01-03 0.500
15 004     2014-01-04 0.562
16 004     2014-01-05 0.503

示例代码:

df <- data.frame(MRN = c('001','001','001','001',
                         '002','002','002','002',
                         '003','003','003','003',
                         '004','004','004','004'), 
                 Collected_Date = as.Date(c('01-02-2015','01-03-2015','01-04-2015','01-05-2015',
                                            '03-03-2015','03-05-2015','03-06-2015','03-07-2015',
                                            '08-02-2015','08-03-2015','08-04-2015','08-05-2015',
                                            '01-02-2014','01-03-2014','01-04-2014','01-05-2014'), 
                                            format = '%m-%d-%Y'), 
                 ANC = as.numeric(c('0.345','0.532','0.843','0.932',
                         '0.012','0.022','0.543','0.563',
                         '0.343','0.500','0.734','0.455',
                         '0.001','0.500','0.562','0.503')))

目前,我正在使用一种非常尴尬的方法,使用滞后函数计算日期差异,然后过滤所有值&gt; = 0.5,然后总结这些值,这有助于选择THIRD值的日期。然后我减去两天来得到第一个值的日期:

   df %>% group_by(MRN) %>% 
    mutate(., days_diff = abs(Collected_Date[1] - Collected_Date)) %>% 
        filter(ANC >= 0.5) %>%
            mutate(days = days_diff + lag((days_diff))) %>%
                filter(days == 5) %>%
                    mutate(Collected_Date = Collected_Date - 2) %>%
                        select(MRN, Collected_Date)

输出:

来源:本地数据框[2 x 2] 团体:MRN

  MRN Collected_Date
1 001     2015-01-03
2 004     2014-01-03

必须有一种更简单/更优雅的方式。此外,如果测试日期之间存在差距,则无法给出准确的结果。

此示例的所需输出是:

   MRN Collected_Date   ANC     
1  001     2015-01-03 0.532
2  004     2014-01-03 0.500

因此,如果至少三个连续测试值>> 0.5,则应返回FIRST值的日期。

如果至少有三个连续值&gt; = 0.5,则应返回NA。

非常感谢任何帮助!

非常感谢!

4 个答案:

答案 0 :(得分:8)

最简单的方法是将zoo库与dplyr结合使用。在zoo包中有一个名为rollapply的函数,我们可以用它来计算一个时间窗口的函数值。

在这个例子中,我们可以应用窗口来计算接下来三个值的最小值,然后应用指定的逻辑。

df %>% group_by(MRN) %>%
  mutate(ANC=rollapply(ANC, width=3, min, align="left", fill=NA, na.rm=TRUE)) %>%
  filter(ANC >= 0.5) %>%  
  filter(row_number() == 1)

#   MRN Collected_Date   ANC
# 1 001     2015-01-03 0.532
# 2 004     2014-01-03 0.500

在上面的代码中,我们使用rollapply来计算接下来的3个项目的最小值。要了解其工作原理,请比较以下内容:

rollapply(1:6, width=3, min, align="left", fill=NA) # [1]  1  2  3  4 NA NA
rollapply(1:6, width=3, min, align="center", fill=NA) # [1] NA  1  2  3  4 NA
rollapply(1:6, width=3, min, align="right", fill=NA) # [1] NA NA  1  2  3  4

所以在我们的例子中,我们从左边开始对齐,所以它从当前位置开始,并期待接下来的2个值。

最后,我们按适当的值进行过滤,并对每个组进行第一次观察。

答案 1 :(得分:3)

基本方法:

使用rle查找3个或更多的序列并抓住第一个

df <- data.frame(MRN = c('001','001','001','001','002','002','002','002','003','003','003','003','004','004','004','004'), Collected_Date = as.Date(c('01-02-2015','01-03-2015','01-04-2015','01-05-2015', '03-03-2015','03-05-2015','03-06-2015','03-07-2015', '08-02-2015','08-03-2015','08-04-2015','08-05-2015', '01-02-2014','01-03-2014','01-04-2014','01-05-2014'), format = '%m-%d-%Y'), ANC = as.numeric(c('0.345','0.532','0.843','0.932', '0.012','0.022','0.543','0.563', '0.343','0.500','0.734','0.455', '0.001','0.500','0.562','0.503')))

df[as.logical(with(df, ave(ANC, MRN, FUN = function(x)
   cumsum(x >= .5 & with(rle(x >= .5), rep(lengths, lengths)) >= 3) == 1))), ]

#    MRN Collected_Date   ANC 
# 2  001     2015-01-03 0.532
# 14 004     2014-01-03 0.500

也许这个版本更容易理解

df[as.logical(with(df, ave(ANC, MRN, FUN = function(x) {
     r <- rle(x >= .5)
     r <- rep(r$lengths, r$lengths)
     cumsum(r == 3 & x >= .5) == 1
    }))), ]

修改

df <- df[c(1:4,4,4,4,5,5,5,5:16), ]
df[as.logical(with(df, ave(ANC, MRN, FUN = function(x)
  cumsum(x >= .5 & with(rle(x >= .5), rep(lengths, lengths)) >= 3) == 1))), ]

#    MRN Collected_Date   ANC
# 2  001     2015-01-03 0.532
# 14 004     2014-01-03 0.500

答案 2 :(得分:2)

我们可以创建一个辅助函数,给定一个向量 function isPalindrome(x) { return x.length <= 1 ? true : (x.charAt(0) != x.charAt(x.length - 1) ? false : isPalindrome(x.slice(1, -1))) } function Palindrome(str) { var revStr = ""; // var str = document.getElementById("str").value; var i = str.length; for(var j=i; j>=0; j--) { revStr = revStr+str.charAt(j); } if(str == revStr) { alert(str+" is a palindrome"); } else { alert(str+" is not a palindrome"); } } var str = prompt("Enter a string or number:") Palindrome(str) if (isPalindrome(str)){ alert('isP: ' +str+" is a palindrome"); } else{ alert('isP: ' +str+" is not a palindrome"); } 返回一个向量,指示超过给定阈值的连续值的数量:

x

以及返回特定长度的第一次运行的起始索引的函数:

high_run <- function(x, threshold) {
    high <- x >= threshold
    streak <- high[1]
    for(h in high[2:length(high)]){
        streak <- c(streak, streak[length(streak)]*h + h)
    }
    run
}

然后我们可以使用后一个函数来选择原始数据帧的适当行:

high_run_start <- function(x, threshold, run){
    match(run, high_run(x, threshold)) - run + 1
}

答案 3 :(得分:1)

这是一个ddply解决方案(抱歉,我不是%>%语法的最新版本,但也许也可以应用它。)

我不确定它是否优雅&#34;从某种意义上说,你的意思是,但是第二次读它会有意义(对我而言,这比单行更重要),并且对缺少日期等具有强大的作用。

关键是使用rle(游程编码)来查找&#39;运行&#39; ANC >= 0.5,其中跑步的长度至少为3.这将照顾连续的&#39;部分。我们将其保存到r

然后r.i给出第一次运行中长度为3或更长的索引,并且运行的值为TRUE

要获取x中的索引,您只需sum的运行时间长度,但不包括我们感兴趣的运行,并添加1以开始(那是&#39; s sum(r$lengths[1:(r.i - 1)])+1)。

ddply(df,
.(MRN),
function (x) {
    r <- rle(x$ANC >= 0.5) # find 'runs' of x$ANC >= 0.5
    # find index of first run of length >=3 with ANC >= .5
    r.i <- which(r$lengths >= 3 & r$values)[1] 
    if (!is.na(r.i)) {
        # get index of first row in that run and return it.
        return(x[sum(r$lengths[seq_len(r.i - 1)]) + 1, ])
    }
    return(NULL)
})

如果你提取例如更好的话x <- subset(df, MRN == '001')并逐步查看rr.i的样子。