我有一个包含10列的数据框。例如,这是虚拟版本:
df = tbl_df(replicate(10,sample(0:1,1000,rep=TRUE)))
我想在dplyr中执行此操作:
df %>% mutate(V2 = ifelse(is.na(V6), V2, paste(V2,V3,sep=" ")))
我获得:
Error: Each variable must have a unique name.
但如果我这样做:
df$V2 = ifelse(is.na(df$V6), df$V2, paste(df$V2,df$V3,sep=" "))
它有效。
如何使用dplyr
语句执行最后一步?
答案 0 :(得分:4)
正如@Lamia所说,问题很可能在于重复的列名称。
使用重复的列名创建示例数据框。你应该从不这样做:
wrong_df <- data.frame(
V1 = 1:3,
V2 = 1:3,
V3 = 1:3,
V6 = c(4, NA, 6),
V1 = 7:9,
check.names = FALSE
)
wrong_df
# V1 V2 V3 V6 V1
# 1 1 1 1 4 7
# 2 2 2 2 NA 8
# 3 3 3 3 6 9
重现问题:
library(dplyr)
wrong_df %>%
mutate(V2 = ifelse(is.na(V6), V2, paste(V2, V3, sep = " ")))
# Error: Each variable must have a unique name.
# Problem variables: 'V1'
通过使用make.names()
对列名进行重复数据删除来解决此问题。请注意,第二个V1
列已重命名为V1.1
(请参阅help("make.names")
):
wrong_df %>%
setNames(make.names(names(.), unique = TRUE)) %>%
mutate(V2 = ifelse(is.na(V6), V2, paste(V2, V3, sep = " ")))
# V1 V2 V3 V6 V1.1
# 1 1 1 1 1 4 7
# 2 2 2 2 NA 8
# 3 3 3 3 3 6 9