假设我有一个包含多行的数据框,如下所示:
df <- data.frame(a = c(NA,20,NA),
date1 = c("2016-03-01", "2016-02-01", "2016-02-01"),
b = c(50,NA, NA),
date2 = c("2016-02-01", "2016-03-01", "2016-03-01"),
c = c(10,10, 10),
date3 = c("2016-01-01","2016-01-01", "2016-01-01"))
对于每一行,我想根据NA
获取a
,b
和c
之间的最新值dates
(所以我分别查看date1
,date2
或date3
并选择最新的一个。)
基本上,date1
会提供与值a
对应的日期,
date2
给出与值b
对应的日期,
date3
提供与值c
对应的日期。
如果date1 > date2
&amp; date1 > date3
,我想取值a
但是,如果值a
为NA
(我的示例中就是这种情况),我会比较date2
和date3
。在我的示例date2 > date3
中,由于值b
不是NA
而是50
,因此我将50
作为我的最终结果。
现在我想对数据框中的所有行
执行此操作由于我使用dplyr
,我尝试使用排名函数来使用case_when
函数(在我的示例中,我查看第一个排名日期,然后查看链接值。如果是NA,我会看第二名,等等......)
但是,我不能像我想做的那样放弃:
df <- df %>%
mutate(result = case_when(is.na(a) & is.na(b) & is.na(c) ~ NA_integer_,
rev(rank(date1, date2, date3))[1] == 3 & !is.na(a) ~ a,
rev(rank(date1, date2, date3))[2] == 3 & !is.na(b) ~ b,
rev(rank(date1, date2, date3))[3] == 3 & !is.na(a) ~ c,
rev(rank(date1, date2, date3))[1] == 2 & !is.na(a) ~ a,
rev(rank(date1, date2, date3))[2] == 2 & !is.na(b) ~ b,
rev(rank(date1, date2, date3))[3] == 2 & !is.na(a) ~ c,
rev(rank(date1, date2, date3))[1] == 1 & !is.na(a) ~ a,
rev(rank(date1, date2, date3))[2] == 1 & !is.na(b) ~ b,
rev(rank(date1, date2, date3))[3] == 1 & !is.na(a) ~ c))
因为rank
函数需要一个唯一的向量作为参数(但我不能放c(date1, date2, date3)
因为它会给我这个向量的整个顺序而不是每行的等级)< / p>
在我的例子中,我希望得到的结果是
res
a date1 b date2 c date3 result
NA 2016-03-01 50 2016-02-01 10 2016-01-01 50
20 2016-02-01 NA 2016-03-01 10 2016-01-01 20
NA 2016-02-01 NA 2016-03-01 10 2016-01-01 10
有没有人对这个问题有任何想法甚至是完全不同的方法?
答案 0 :(得分:4)
我建议转换为长格式并计算相关值。如果需要,可以将结果添加到原始data.frame中。以下是使用data.table:
的方法library(data.table)
setDT(df) # convert to data.table object
df[, row := .I] # add a row-id
dflong <- melt(df, id = "row", measure = patterns("^date", "^(a|b|c)"),
na.rm = TRUE) # convert to long format
setorder(dflong, value1) # reorder by date value
dflong <- unique(dflong, by = "row", fromLast = TRUE) # get the latest dates
df[dflong, result := i.value2, on = "row"] # add result to original data
df
# a date1 b date2 c date3 row result
#1: NA 2016-03-01 50 2016-02-01 10 2016-01-01 1 50
#2: 20 2016-02-01 NA 2016-03-01 10 2016-01-01 2 20
#3: NA 2016-02-01 NA 2016-03-01 10 2016-01-01 3 10
答案 1 :(得分:3)
这应该处理它。首先,我们将数据放在整洁的形式中(每个日期,值为1行,以及row_num以标识整齐行所属的示例)。然后我们过滤掉NAs,group_by row_num,按日期降序排序,然后取第一行。
df %>%
mutate(row_num = row_number()) %>%
unite(a, a, date1) %>%
unite(b, b, date2) %>%
unite(c, c, date3) %>%
gather(key, value, -row_num) %>%
select(-key) %>%
separate(value, into=c("Value", "Date"), sep = "_") %>%
mutate(Date = as.Date(Date)) %>%
filter(Value != "NA") %>%
group_by(row_num) %>%
top_n(1, Date) %>%
ungroup()
答案 2 :(得分:2)
这是一种方法......
df$result <- apply(df, 1, function(x){
dates <- as.Date(x[seq(2, length(x), 2)])
values <- x[seq(1,length(x),2)]
return(values[!is.na(values)][which.max(dates[!is.na(values)])])
})
df
a date1 b date2 c date3 result
1 NA 2016-03-01 50 2016-02-01 10 2016-01-01 50
2 20 2016-02-01 NA 2016-03-01 10 2016-01-01 20
3 NA 2016-02-01 NA 2016-03-01 10 2016-01-01 10
答案 3 :(得分:1)
这是另一种方法:
df$row <- 1:nrow(df)
gather(df, key, date_val, date1, date2, date3, -row) %>%
select(-key) %>%
gather(key, val, a,b,c) %>%
filter(!is.na(val)) %>%
group_by(row) %>%
mutate(max_date = max(date_val)) %>%
filter(date_val == max_date) %>% summarise(result = max(val)) %>%
left_join(df, by="row") %>% select(-row)
# A tibble: 3 × 7
result a date1 b date2 c date3
<dbl> <dbl> <fctr> <dbl> <fctr> <dbl> <fctr>
1 50 NA 2016-03-01 50 2016-02-01 10 2016-01-01
2 20 20 2016-02-01 NA 2016-03-01 10 2016-01-01
3 10 NA 2016-02-01 NA 2016-03-01 10 2016-01-01
答案 4 :(得分:1)
另一个base
替代方案:
df$id <- 1:nrow(df)
d2 <- reshape(df, varying = list(seq(1, by = 2, len = (ncol(df) - 1)/2),
seq(2, by = 2, len = (ncol(df) - 1)/2)),
direction = "long")
d2 <- with(d2, d2[order(-id, date1, decreasing = TRUE), ])
cbind(df, res = tapply(d2$a[!is.na(d2$a)], d2$id[!is.na(d2$a)], `[`, 1))
# a date1 b date2 c date3 id res
# 1 NA 2016-03-01 50 2016-02-01 10 2016-01-01 1 50
# 2 20 2016-02-01 NA 2016-03-01 10 2016-01-01 2 20
# 3 NA 2016-02-01 NA 2016-03-01 10 2016-01-01 3 10
答案 5 :(得分:0)
派对结束了,但我刚刚遇到这个帖子并决定留下以下内容。我的想法是,我宁愿创建一个数据框并完成工作。
out <- data.frame(group = 1:nrow(df),
date = as.Date(unlist(df[, grep(x = names(df), "[1-9]")]),
"%Y-%m-%d"),
result = unlist(df[nchar(names(df)) == 1])) %>%
filter(complete.cases(.)) %>%
group_by(group) %>%
slice(which.max(date)) %>%
ungroup
cbind(df, result = out$result)
# a date1 b date2 c date3 result
#1 NA 2016-03-01 50 2016-02-01 10 2016-01-01 50
#2 20 2016-02-01 NA 2016-03-01 10 2016-01-01 20
#3 NA 2016-02-01 NA 2016-03-01 10 2016-01-01 10
如果我使用data.table,我会执行以下操作,这是基于docendo的答案。
setDT(df)[, row := .I]
out <- melt(df, id = "row", measure = patterns("^date", "^(a|b|c)"),
value.name = c("date", "result"), na.rm = TRUE) [,
date := as.Date(date, "%Y-%m-%d")][,
.SD[which.max(date)], by = row][, c("row", "result")]
df[out, on = "row"]
# a date1 b date2 c date3 row result
#1: 20 2016-02-01 NA 2016-03-01 10 2016-01-01 2 20
#2: NA 2016-03-01 50 2016-02-01 10 2016-01-01 1 50
#3: NA 2016-02-01 NA 2016-03-01 10 2016-01-01 3 10