如何仅从5个最后的整数值中减去中位数

时间:2018-06-19 11:52:55

标签: r dplyr plyr lapply

我有这个数据集

    df=structure(list(Dt = structure(1:39, .Label = c("2018-02-20 00:00:00.000", 
"2018-02-21 00:00:00.000", "2018-02-22 00:00:00.000", "2018-02-23 00:00:00.000", 
"2018-02-24 00:00:00.000", "2018-02-25 00:00:00.000", "2018-02-26 00:00:00.000", 
"2018-02-27 00:00:00.000", "2018-02-28 00:00:00.000", "2018-03-01 00:00:00.000", 
"2018-03-02 00:00:00.000", "2018-03-03 00:00:00.000", "2018-03-04 00:00:00.000", 
"2018-03-05 00:00:00.000", "2018-03-06 00:00:00.000", "2018-03-07 00:00:00.000", 
"2018-03-08 00:00:00.000", "2018-03-09 00:00:00.000", "2018-03-10 00:00:00.000", 
"2018-03-11 00:00:00.000", "2018-03-12 00:00:00.000", "2018-03-13 00:00:00.000", 
"2018-03-14 00:00:00.000", "2018-03-15 00:00:00.000", "2018-03-16 00:00:00.000", 
"2018-03-17 00:00:00.000", "2018-03-18 00:00:00.000", "2018-03-19 00:00:00.000", 
"2018-03-20 00:00:00.000", "2018-03-21 00:00:00.000", "2018-03-22 00:00:00.000", 
"2018-03-23 00:00:00.000", "2018-03-24 00:00:00.000", "2018-03-25 00:00:00.000", 
"2018-03-26 00:00:00.000", "2018-03-27 00:00:00.000", "2018-03-28 00:00:00.000", 
"2018-03-29 00:00:00.000", "2018-03-30 00:00:00.000"), class = "factor"), 
    ItemRelation = c(158043L, 158043L, 158043L, 158043L, 158043L, 
    158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 
    158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 
    158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 
    158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 158043L, 
    158043L, 158043L, 158043L, 158043L, 158043L, 158043L), stuff = c(200L, 
    0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 3600L, 0L, 0L, 0L, 0L, 
    700L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1000L, 
    2600L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 700L), num = c(1459L, 
    1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 
    1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 
    1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 
    1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 1459L, 
    1459L, 1459L), year = c(2018L, 2018L, 2018L, 2018L, 2018L, 
    2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 
    2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 
    2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 
    2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L), action = c(0L, 
    0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 
    0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 
    0L, 0L, 0L, 0L, 1L, 1L, 1L, 1L)), .Names = c("Dt", "ItemRelation", 
"stuff", "num", "year", "action"), class = "data.frame", row.names = c(NA, 
-39L))

动作列只有两个值0和1。我必须使用1个类别之前的最后五个整数值来计算1个类别的动作的中值,然后是零类别的动作的中值。我只接受最后5个观察值,有必要采取零作用类别中的最后5个观察值,但仅取整数值,而不计算中位数 按零类别的所有值。在我们的例子中是

200
3600
700
1000
2600

然后从一个类别的中位数减去零类别的中位数。

在零操作类别中按事物进行观察的次数可以在0到10之间变化。如果我们有10个零类别的整数,则取最后五个。如果只有1,2,3,4,5个整数值,我们减去整数的实数的中位数。如果我们只有0个而没有整数,那么我们就等于0。

这个来自相邻主题How to subtract a median only from integer value的Akshay解决方案对我有帮助

df.0 <- df %>% filter(action == 0 & stuff != 0) %>% arrange(Dt) %>% top_n(5)
df.1 <- df %>% filter(action==1 & stuff!=0)

new.df <- rbind(df.0,df.1)


View(
  df %>% select (everything()) %>%  group_by(ItemRelation, num, year) %>%
    summarise(
      median.1 = median(stuff[action == 1 & stuff != 0], na.rm = T),
      median.0 = median(stuff[action == 0 &
                                stuff != 0], na.rm = T)
    ) %>%
    mutate(
      value = median.1 - median.0,
      DocumentNum = num,
      DocumentYear = year
    ) %>%
    select(ItemRelation, DocumentNum, DocumentYear, value)

但是代码按动作类别为零的所有对象计算中间值,它必须按动作类别为零的对象计算中值,但一个类别之前的最后5个对象为计算值。

如果有人在原始主题(即相邻主题)中对我有帮助,我只会删除该新主题,而不生成相关主题。

请注意,零操作类别可能有其他值,而不是零。

Edit2我添加了新类别-CustomerName

put <- data.frame(mydat[which.max(as.Date(mydat$Dt)),
                           c("CustomerName","ItemRelation","DocumentNum","DocumentYear")], 
                     value = m,
                     row.names = 1:length(which.max(as.Date(mydat$Dt))))


CustomerName ItemRelation DocumentNum DocumentYear value
1  orange TC       157214        1529         2018   162

为什么我只有一个字符串? 输出必须作为示例。地层很多。没有一个

CustomerName ItemRelation DocumentNum DocumentYear value
1  orange TC       157214        1529         2018   162
2  appleTC              5        1529         2018   164

1 个答案:

答案 0 :(得分:1)

我不太清楚你希望完成什么。但是,这可能会有帮助。

您可以使用whichintersect子集所需数据的一部分:

# df with action 0 and stuff > 0
v <- df$stuff[intersect(which(df$action == 0),
                        which(df$stuff > 0))]

# df with action 1 and stuff > 0
w <- df$stuff[intersect(which(df$action == 1),
                        which(df$stuff > 0))]

v包含stuff的所有元素,其中action0,而stuff不是0。从现在开始,计算中位数是一种形式。 (如果intersect(...)为空,例如,如果stuff0action始终为0,则可能需要添加安全措施。)

# calulating the median of v for the last 5 observations
l <- length(v)
m0 <- median(v[(l-4):l]) # taking the median of the last 5 observations
# computing the final difference
m <- median(w) - m0

修改

要复制以上输出,请考虑

output <- data.frame(df[which.max(as.Date(df$Dt)),
                        c("Dt","ItemRelation","num","year")], 
                     value = m,
                     row.names = 1:length(which.max(as.Date(df$Dt))))

其中which.max(as.Date(df$Dt))给出最新日期的行号。但是,为获得该结果而应用的逻辑可能会有所不同,因此在此建议您谨慎。

无论如何,这里是输出

> output
                       Dt ItemRelation  num year value
1 2018-03-30 00:00:00.000       158043 1459 2018  -300