我有一个包含以下列的数据:
Date CID FID rank
31/01/17 abc0001 rx180x01 0
31/01/17 abc0001 rx180x02 0
31/01/17 abc0001 rx180x03 2
28/02/17 abc0001 rx180x32 1
28/02/17 abc0001 rx180x31 0
每个CID都有一些映射到其的唯一FID,并且对这些FID具有一定的等级。我需要创建2个新列finalrank和finalFID。
最终排名是每个日期每个CID的最高排名。例如,对于CID abc0001,在日期31/01/17中,最终排名将为2。此逻辑将应用于所有唯一的CID-日期组合。
FinalFID是在日期中具有特定CID最终排名值的FID。例如,在日期31/01/17中,对于CID abc0001,具有最高排名的FID为rx180x03
所以我的结果应该像这样:
Date CID FID rank finalrank finalFID
31/01/17 abc0001 rx180x01 0 2 rx180x03
31/01/17 abc0001 rx180x02 0 2 rx180x03
31/01/17 abc0001 rx180x03 2 2 rx180x03
28/02/17 abc0001 rx180x32 1 1 rx180x32
28/02/17 abc0001 rx180x31 0 1 rx180x32
我写了一个看起来优雅而精致的代码,但是它不适用于非常大的数据。我正在处理的那个有5,000,000。当我在R中运行它时,它表明对如此大的数据帧没有其他操作。
data = dplyr::group_by(data,CID,date)
data = arrange(data,CID,date)
data = dplyr::mutate(data, finalrank =max(rank))
# Id FID of maximum rank
data = dplyr::mutate(data, match = FID[match(finalrank ,rank)])
答案 0 :(得分:2)
dat%>%
group_by(Date,CID)%>%
mutate(finalrank=max(rank),finalFID=FID[which.max(rank)])
# A tibble: 5 x 6
# Groups: Date, CID [2]
Date CID FID rank finalrank finalFID
<fct> <fct> <fct> <int> <dbl> <fct>
1 31/01/17 abc0001 rx180x01 0 2 rx180x03
2 31/01/17 abc0001 rx180x02 0 2 rx180x03
3 31/01/17 abc0001 rx180x03 2 2 rx180x03
4 28/02/17 abc0001 rx180x32 1 1 rx180x32
5 28/02/17 abc0001 rx180x31 0 1 rx180x32
使用data.table
library(data.table)
setDT(dat)[,c("finalrank","finalFID"):=.(max(rank),FID[which.max(rank)]),by=.(Date,CID)]
dat
Date CID FID rank finalrank finalFID
1: 31/01/17 abc0001 rx180x01 0 2 rx180x03
2: 31/01/17 abc0001 rx180x02 0 2 rx180x03
3: 31/01/17 abc0001 rx180x03 2 2 rx180x03
4: 28/02/17 abc0001 rx180x32 1 1 rx180x32
5: 28/02/17 abc0001 rx180x31 0 1 rx180x32
答案 1 :(得分:2)
使用dplyr
的方法(预计会更快)是通过arranging
上的Date, CID, rank
数据,然后取last
。解决方案将为:
library(dplyr)
df %>% mutate(Date = as.POSIXct(Date,format = "%d/%m/%y")) %>%
group_by(Date, CID) %>%
arrange(Date, CID, rank) %>%
mutate(finalrank = last(rank), finalFID=last(FID)) %>%
as.data.frame()
# Date CID FID rank finalrank finalFID
# 1 2017-01-31 abc0001 rx180x01 0 2 rx180x03
# 2 2017-01-31 abc0001 rx180x02 0 2 rx180x03
# 3 2017-01-31 abc0001 rx180x03 2 2 rx180x03
# 4 2017-02-28 abc0001 rx180x31 0 1 rx180x32
# 5 2017-02-28 abc0001 rx180x32 1 1 rx180x32
编辑:为了澄清@Onyambu的疑问,如果最后一行没有等级的最大值,那么解决方案也适用。
df$rank[1] <- 3
df %>% mutate(Date = as.POSIXct(Date,format = "%d/%m/%y")) %>%
group_by(Date, CID) %>%
arrange(Date, CID, rank) %>%
mutate(finalrank = last(rank), finalFID=last(FID)) %>%
as.data.frame()
# Date CID FID rank finalrank finalFID
# 1 2017-01-31 abc0001 rx180x02 0 3 rx180x01
# 2 2017-01-31 abc0001 rx180x03 2 3 rx180x01
# 3 2017-01-31 abc0001 rx180x01 3 3 rx180x01
# 4 2017-02-28 abc0001 rx180x31 0 1 rx180x32
# 5 2017-02-28 abc0001 rx180x32 1 1 rx180x32
数据:
df <- read.table(text=
"Date CID FID rank
31/01/17 abc0001 rx180x01 0
31/01/17 abc0001 rx180x02 0
31/01/17 abc0001 rx180x03 2
28/02/17 abc0001 rx180x32 1
28/02/17 abc0001 rx180x31 0",
header = TRUE, stringsAsFactors = FALSE)