我试图根据前两列中值的组合选择数据框第三列中的最大值。
我的问题与this one类似,但我无法找到实现我需要的方法。
编辑:示例数据已更改,以使列名更明显。
以下是一些示例数据:
library(tidyr)
set.seed(1234)
df <- data.frame(group1 = letters[1:4], group2 = letters[1:4])
df <- df %>% expand(group1, group2)
df <- subset(df, subset = group1!=group2)
df$score <- runif(n = 12,min = 0,max = 1)
df
# A tibble: 12 × 3
group1 group2 score
<fctr> <fctr> <dbl>
1 a b 0.113703411
2 a c 0.622299405
3 a d 0.609274733
4 b a 0.623379442
5 b c 0.860915384
6 b d 0.640310605
7 c a 0.009495756
8 c b 0.232550506
9 c d 0.666083758
10 d a 0.514251141
11 d b 0.693591292
12 d c 0.544974836
在此示例中,第1行和第4行是“重复”。我想选择第4行,因为得分列中的值大于第1行。最后,我希望返回包含group1和group2列的数据帧以及得分列中的最大值。所以在这个例子中,我希望返回6行。
我怎样才能在R?
中这样做答案 0 :(得分:0)
我更喜欢分两步处理这个问题:
library(dplyr)
# Create function for computing group IDs from data frame of groups (per column)
get_group_id <- function(groups) {
apply(groups, 1, function(row) {
paste0(sort(row), collapse = "_")
})
}
group_id <- get_group_id(select(df, -score))
# Perform the computation
df %>%
mutate(groupId = group_id) %>%
group_by(groupId) %>%
slice(which.max(score)) %>%
ungroup() %>%
select(-groupId)