Question

我有一个.csv文件，其中包含十列数据。每个列中的内有重复项，但是列之间的不应该重复。我该如何验证？

我希望在SPSS或R中执行此功能。

Answer 1

我们检查这些列的输出是否重复：

df <- data.frame(a=1:3,b=4:6,c=1:3)
df
#   a b c
# 1 1 4 1
# 2 2 5 2
# 3 3 6 3

col_dputs <- sapply(df,function(x) capture.output(dput(x)))

# only redundant columns
names(df)[duplicated(col_dputs)]
#[1] "c"

# all duplicated columns
names(df)[duplicated(col_dputs) | duplicated(col_dputs,fromLast = TRUE)]
# [1] "a" "c"

如何找到变量之间的重复项？

1 个答案: