这就是我的数据框架:
df <- read.table(text='
CustomerName Sales TradeDate
John 1000 1/1/2015
John -1000 1/1/2015
John 1000 1/1/2015
John 5000 2/1/2015
John -2000 3/1/2015
John 2000 3/2/2015
John 2000 3/3/2015
John -2000 3/4/2015
John 2000 3/5/2015
John 2000 3/6/2015
John -3000 4/1/2015
John 3000 4/1/2015
John -3000 4/1/2015
John 2000 5/1/2015
John -2000 5/1/2015
John 2000 5/1/2015
Tom 1000 1/1/2015
Tom -1000 1/1/2015
Tom 1000 1/1/2015
Tom 5000 2/1/2015
Tom -2000 3/1/2015
Tom 2000 3/1/2015
Tom -2000 3/1/2015
Tom 2000 3/1/2015
Tom 2000 3/1/2015
Tom -3000 4/1/2015
Tom 3000 4/1/2015
Tom -3000 4/1/2015
', header=T)
我希望摆脱金额相等且符号相反的所有销售额(+, - ),并且只显示剩余的净销售额(最好是在最早的日期,但无论哪种方式都无关紧要)。我想要的数据框如下所示
CustomerName Sales TradeDate
John 1000 1/1/2015
John 5000 2/1/2015
John 2000 3/3/2015
John 2000 3/6/2015
John -3000 4/1/2015
John 2000 5/1/2015
Tom 1000 1/1/2015
Tom 5000 2/1/2015
Tom 2000 3/1/2015
Tom -3000 4/1/2015
我从2015年3月3日和2015年3月6日选择了两个2000年(约翰在3月份的案例中)。但我也可以在2015年3月2日或2015年5月5日给出两个2000s的输出。非常感谢您的帮助!
答案 0 :(得分:5)
我会在data.table
:
library(data.table)
# identify how many transactions we need to keep
setDT(df)[,
n_keep := sum(Sales)/transval
,by=.(CustomerName,transval=abs(Sales))]
# tag those transactions
df[sign(Sales)==sign(n_keep),
keep := 1:.N %in% tail(1:.N,abs(n_keep[1]))
,by=.(CustomerName,Sales)]
# keep 'em
df[(keep)][,c("n_keep","keep"):=NULL][]
给出了
CustomerName Sales TradeDate
1: John 1000 1/1/2015
2: John 5000 2/1/2015
3: John 2000 3/5/2015
4: John 2000 3/6/2015
5: John -3000 4/1/2015
6: Tom 1000 1/1/2015
7: Tom 5000 2/1/2015
8: Tom 2000 3/1/2015
9: Tom -3000 4/1/2015
我确信我的代码可以简化,但我认为步骤非常透明。
答案 1 :(得分:0)
另一种解决方案是计算每日总数:
library(dplyr)
df %>%
group_by(CustomerName, TradeDate) %>%
summarise(Sales = sum(Sales))
#> Source: local data frame [14 x 3]
#> Groups: CustomerName
#>
#> CustomerName TradeDate Sales
#> 1 John 1/1/2015 1000
#> 2 John 2/1/2015 5000
#> 3 John 3/1/2015 -2000
#> 4 John 3/2/2015 2000
#> 5 John 3/3/2015 2000
#> 6 John 3/4/2015 -2000
#> ...