如何找到变量之间的重复项?

时间:2018-07-31 22:34:44

标签: r duplicates spss

我有一个.csv文件,其中包含十列数据。每个列中的有重复项,但是 列之间的不应该重复。我该如何验证?

我希望在SPSS或R中执行此功能。

1 个答案:

答案 0 :(得分:0)

我们检查这些列的输出是否重复:

df <- data.frame(a=1:3,b=4:6,c=1:3)
df
#   a b c
# 1 1 4 1
# 2 2 5 2
# 3 3 6 3

col_dputs <- sapply(df,function(x) capture.output(dput(x)))

# only redundant columns
names(df)[duplicated(col_dputs)]
#[1] "c"

# all duplicated columns
names(df)[duplicated(col_dputs) | duplicated(col_dputs,fromLast = TRUE)]
# [1] "a" "c"