如何只保留唯一的行而忽略列?

时间:2017-09-15 18:29:25

标签: r dplyr

如果我有这些数据:

df1 <- data.frame(name = c("apple", "apple", "apple", "orange", "orange"),
       ID = c(1, 2, 3, 4, 5),
       is_fruit = c("yes", "yes", "yes", "yes", "yes"))

我希望只保留唯一的行,但忽略ID列,输出如下所示:

df2 <- data.frame(name = c("apple", "orange"),
       ID = c(1, 4),
       is_fruit = c("yes", "yes"))

df2
#    name ID is_fruit
#1  apple  1      yes
#2 orange  4      yes

我怎样才能做到这一点,最好是dplyr

2 个答案:

答案 0 :(得分:3)

您可以使用distinct功能;通过显式指定变量,您可以仅基于这些列保留唯一行;还来自?distinct

  

如果给定的输入组合有多行,则只保留第一行

distinct(df1, name, is_fruit, .keep_all = T)
#    name ID is_fruit
#1  apple  1      yes
#2 orange  4      yes

答案 1 :(得分:2)

基础R

df1[!duplicated(df1[!names(df1) %in% c("ID")]),]
#    name ID is_fruit
#1  apple  1      yes
#4 orange  4      yes

c("ID")替换为您要忽略的列的名称