我有一个.csv
文件,其中包含十列数据。每个列中的内有重复项,但是 列之间的不应该重复。我该如何验证?
我希望在SPSS或R中执行此功能。
答案 0 :(得分:0)
我们检查这些列的输出是否重复:
df <- data.frame(a=1:3,b=4:6,c=1:3)
df
# a b c
# 1 1 4 1
# 2 2 5 2
# 3 3 6 3
col_dputs <- sapply(df,function(x) capture.output(dput(x)))
# only redundant columns
names(df)[duplicated(col_dputs)]
#[1] "c"
# all duplicated columns
names(df)[duplicated(col_dputs) | duplicated(col_dputs,fromLast = TRUE)]
# [1] "a" "c"