R获得基于其他几列的一列的值和一列的最大值吗?

时间:2019-01-30 18:26:48

标签: r

我看到R这样的问题(Extract the maximum value within each group in a dataframe),但没有一个能真正满足我的需求。

我清理过的数据看起来像这样:

      date ticker openprice lowprice closeprice hour min
2015-11-17    EXC     28.53    28.52      28.54    9  31
2015-11-17    EXC     28.53    28.52      28.58    9  32
2015-11-17    EXC     28.57    28.54      28.57    9  33
2015-11-17    AEP     28.59    28.59      28.66    9  34
2015-11-17    AEP     28.66    28.63      28.65    9  35
2015-11-17    AEP     28.64    28.63      28.65    9  36
2015-11-18    EXC     28.53    28.52      28.54    9  31
2015-11-18    EXC     28.53    28.52      28.58    9  32
2015-11-18    EXC     28.57    28.54      28.57    9  33
2015-11-18    AEP     28.59    28.59      28.66    9  34
2015-11-18    AEP     28.66    28.63      28.65    9  35
2015-11-18    AEP     28.64    28.63      28.65    9  36

然后,我需要以小时,股票报价和日期的最小值min的最小值来获取closeprice的值,然后以小时,股票报价和日期的min最大值来再次获取closeprice的值。

上述小样本的解决方案将是这样的(不完全是这样,但是您可以了解我所追求的目标):

date, ticker, hour, hour_beginning_price, hour_end_price
2015-11-17, EXC, 9, 28.54, 28.57
2015-11-17, AEP, 9, 28.66, 28.65
2015-11-18, EXC, 9, 29.54, 29.57
2015-11-18, AEP, 9, 29.66, 29.65

因此您可以将样本数据加载到R中:

blep<-read.table(header = TRUE, text = '          date ticker openprice lowprice closeprice hour min
    2015-11-17    EXC     28.53    28.52      28.54    9  31
    2015-11-17    EXC     28.53    28.52      28.58    9  32
    2015-11-17    EXC     28.57    28.54      28.57    9  33
    2015-11-17    AEP     28.59    28.59      28.66    9  34
    2015-11-17    AEP     28.66    28.63      28.65    9  35
    2015-11-17    AEP     28.64    28.63      28.65    9  36
    2015-11-18    EXC     28.53    28.52      29.54    9  31
    2015-11-18    EXC     28.53    28.52      29.58    9  32
    2015-11-18    EXC     28.57    28.54      29.57    9  33
    2015-11-18    AEP     28.59    28.59      29.66    9  34
    2015-11-18    AEP     28.66    28.63      29.65    9  35
    2015-11-18    AEP     28.64    28.63      29.65    9  36')

一段时间以来,我一直在尝试学习如何做到这一点,但一无所获,我总是首先尝试自己解决问题,但是我不确定如何正确地将聚合的输出与之合并,或者如果那是解决这个问题的正确方法:

which(apply(sd, function(x) all(x == aggregate(sd$min, by = list(sd$date, sd$ticker, sd$hour), max))))

1 个答案:

答案 0 :(得分:2)

这是使用dplyr的解决方案:

library(dplyr)

blep %>% 
  group_by(date, ticker, hour) %>% 
  arrange(date, ticker, hour, min) %>% 
  summarize(hour_beginning_price = first(closeprice),
            hour_end_price = last(closeprice))

关键是按分钟(min)排序,以便第一个记录是每个组中分钟的最小值,最后一个值是分钟的最大值。