Question

今天早上在使用数据框进行一些分析时，由于存在重复的列名，我收到了错误。我试图找到一个专门使用dplyr的解决方案，但我找不到任何有效的方法。这是一个说明问题的例子。具有重复列名称的数据框。

x <- data.frame(matrix(c(1, 2, 3),
                c(2,2,1),nrow=2,ncol=3))
colnames(x) <- c("a", "a", "b")

当我尝试使用select命令删除第一列时，我收到错误

x %>%
  select(-1)%>%filter(b>1)

Error: found duplicated column name: a

我可以使用传统索引轻松删除列，并使用dplyr按值过滤

x<-x[,-1]%>%filter(b>1)

产生所需的输出

关于如何仅使用dplyr语法执行此操作的任何想法？

Answer 1

这可以起作用，利用make.names行为。不知道我是否在这里作弊，但似乎主要是利用dplyr函数。

x %>% 
    setNames(make.names(names(.), unique = TRUE)) %>% 
    select(-matches("*\\.[1-9]+$"))

Answer 2

如果你想彻底摆脱第一列我只会做

x <- x[, c(2:3)]

或者你也可以重命名

colnames(x)[1] <- "a.1"