Question

与我发现的问题不同，我希望得到两个没有顺序的列的唯一。

我有一个df：

df<-cbind(c("a","b","c","b"),c("b","d","e","a"))
> df
     [,1] [,2]
 [1,] "a"  "b" 
 [2,] "b"  "d" 
 [3,] "c"  "e" 
 [4,] "b"  "a"

在这种情况下，第1行和第4行是“重复”，因为b-a与b-a相同。

我知道如何找到第1列和第2列的唯一性，但我会发现在这种方法下每行都是唯一的。

Answer 1

如果它只有两列，您也可以使用pmin和pmax，如下所示：

library(data.table)
unique(as.data.table(df)[, c("V1", "V2") := list(pmin(V1, V2),
                         pmax(V1, V2))], by = c("V1", "V2"))
#    V1 V2
# 1:  a  b
# 2:  b  d
# 3:  c  e

使用＆＃34; dplyr＆＃34;的类似方法可能是：

library(dplyr)
data.frame(df, stringsAsFactors = FALSE) %>% 
  mutate(key = paste0(pmin(X1, X2), pmax(X1, X2), sep = "")) %>% 
  distinct(key)
#   X1 X2 key
# 1  a  b  ab
# 2  b  d  bd
# 3  c  e  ce

Answer 2

有很多方法可以做到这一点，这里有一个：

unique(t(apply(df, 1, sort)))
duplicated(t(apply(df, 1, sort)))

一个给出唯一的行，另一个给出掩码。

Answer 3

您可以使用igraph创建无向图，然后转换回data.frame

unique(get.data.frame(graph.data.frame(df, directed=FALSE),"edges"))

Answer 4

如果所有元素都是字符串（即使不是，你可以强制它们），那么一个技巧是将其创建为data.frame并使用dplyr的一些技巧在它上面。

library(dplyr)
df <- data.frame(v1 = c("a","b","c","b"), v2 = c("b","d","e","a"))
df$key <- apply(df, 1, function(s) paste0(sort(s), collapse=''))
head(df)
##   v1 v2 key
## 1  a  b  ab
## 2  b  d  bd
## 3  c  e  ce
## 4  b  a  ab

$key列现在应该告诉您重复。

df %>% group_by(key) %>% do(head(., n = 1))
## Source: local data frame [3 x 3]
## Groups: key
##   v1 v2 key
## 1  a  b  ab
## 2  b  d  bd
## 3  c  e  ce

在R中考虑两列的唯一行，没有顺序

4 个答案: