我有一个包含数百列的数据集。它包含邮件列表数据,其中几列似乎是彼此完全相同但形式不同。
例如:
rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH
... ... ... ...
我想删除重叠数据并尽可能保留数字列,因此只有一列包含相同的信息。因此,上面的例子将成为:
rowNum StateCode
1 01
2 01
3 03
4 03
5 03
6 44
7 44
8 44
... ...
我尝试过使用cor()
,但这仅适用于数字变量。我已经尝试了caret::nearZeroVar()
但这只适用于列本身。
有没有人建议找到涉及非数字数据的完全相关的列?
感谢。
答案 0 :(得分:5)
这是一个有趣而快速的解决方案。它首先将data.frame转换为适当结构的整数类矩阵,然后使用cor()
来标识冗余列。
## Read in the data
df <- read.table(text="rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH", header=TRUE)
## Convert data.frame to a matrix with a convenient structure
## (have a look at m to see where this is headed)
l <- lapply(df, function(X) as.numeric(factor(X, levels=unique(X))))
m <- as.matrix(data.frame(l))
## Identify pairs of perfectly correlated columns
M <- (cor(m,m)==1)
M[lower.tri(M, diag=TRUE)] <- FALSE
## Extract the names of the redundant columns
colnames(M)[colSums(M)>0]
[1] "StateName" "StateAbbreviation"
答案 1 :(得分:3)
这可以解决这个问题吗?我基于这个想法,如果你打电话给table(col1, col2)
,
如果列是重复的,则表中的任何列只有一个非零值,例如:
OHIO TEXAS UTAH
1 0 0 2
3 0 3 0
44 3 0 0
这样的事情:
dup.cols <- read.table(text='rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH', header=T)
library(plyr)
combs <- combn(ncol(dup.cols), 2)
adply(combs, 2, function(x) {
t <- table(dup.cols[ ,x[1]], dup.cols[ , x[2]])
if (all(aaply(t1, 2, function(x) {sum(x != 0) == 1}))) {
paste("Column numbers ", x[1], x[2], "are duplicates")
}
})
答案 2 :(得分:1)
这应该会返回一张地图,告诉你哪些变量相互匹配。
check.dup <- expand.grid(names(dat),names(dat)) #find all variable pairs
check.dup[check.dup$Var1 != check.dup$Var2,] #take out self-reference
check.dup$id <- mapply(function(x,y) {
x <- as.character(x); y <- as.character(y)
#if number of levels is different, discard; keep the number for later
if ((n <- length(unique(dat[,x]))) != length(unique(dat[,y]))) {
return(FALSE)
}
#subset just the variables in question to get pairs
d <- dat[,c(x,y)]
#find unique pairs
d <- unique(d)
#if number of unique pairs is the number of levels from before,
#then the pairings are one-to-one
if( nrow(d) == n ) {
return(TRUE)
} else return(FALSE)
},
check.dup$Var1,
check.dup$Var2
)
答案 3 :(得分:0)
dat <- read.table(text="rowNum StateCode StateName
1 01 UTAH
2 01 UTAH
3 03 TEXAS
4 03 TEXAS
5 03 TEXAS
6 44 OHIO
7 44 OHIO
8 44 OHIO", header=TRUE)
dat [!duplicated(dat[, 2:3]), ]
#------------
rowNum StateCode StateName
1 1 1 UTAH
3 3 3 TEXAS
6 6 44 OHIO