我有两个ID列表。
我想比较两个列表,特别是我对以下数据感兴趣:
我也想画一张维恩图。
答案 0 :(得分:69)
以下是一些尝试的基础知识:
> A = c("Dog", "Cat", "Mouse")
> B = c("Tiger","Lion","Cat")
> A %in% B
[1] FALSE TRUE FALSE
> intersect(A,B)
[1] "Cat"
> setdiff(A,B)
[1] "Dog" "Mouse"
> setdiff(B,A)
[1] "Tiger" "Lion"
同样,您可以简单地将其视为:
> length(intersect(A,B))
[1] 1
> length(setdiff(A,B))
[1] 2
> length(setdiff(B,A))
[1] 2
答案 1 :(得分:20)
我经常处理大型集合,所以我使用的是表而不是维恩图:
xtab_set <- function(A,B){
both <- union(A,B)
inA <- both %in% A
inB <- both %in% B
return(table(inA,inB))
}
set.seed(1)
A <- sample(letters[1:20],10,replace=TRUE)
B <- sample(letters[1:20],10,replace=TRUE)
xtab_set(A,B)
# inB
# inA FALSE TRUE
# FALSE 0 5
# TRUE 6 3
答案 2 :(得分:13)
另一种方法是,使用%in%和公共元素的布尔向量而不是 intersect 和 setdiff 。我认为你实际上想要比较两个向量,而不是两个列表 - 一个列表是一个可能包含任何类型元素的R类,向量总是包含一种类型的元素,因此更容易比较真正相等的东西。这里元素被转换为字符串,因为这是最不灵活的元素类型。
first <- c(1:3, letters[1:6], "foo", "bar")
second <- c(2:4, letters[5:8], "bar", "asd")
both <- first[first %in% second] # in both, same as call: intersect(first, second)
onlyfirst <- first[!first %in% second] # only in 'first', same as: setdiff(first, second)
onlysecond <- second[!second %in% first] # only in 'second', same as: setdiff(second, first)
length(both)
length(onlyfirst)
length(onlysecond)
#> both
#[1] "2" "3" "e" "f" "bar"
#> onlyfirst
#[1] "1" "a" "b" "c" "d" "foo"
#> onlysecond
#[1] "4" "g" "h" "asd"
#> length(both)
#[1] 5
#> length(onlyfirst)
#[1] 6
#> length(onlysecond)
#[1] 4
# If you don't have the 'gplots' package, type: install.packages("gplots")
require("gplots")
venn(list(first.vector = first, second.vector = second))
就像提到的那样,在R中绘制维恩图有多种选择。这是使用gplots的输出。
答案 3 :(得分:4)
使用sqldf:较慢但非常适合具有混合类型的数据框:
t1 <- as.data.frame(1:10)
t2 <- as.data.frame(5:15)
sqldf1 <- sqldf('SELECT * FROM t1 EXCEPT SELECT * FROM t2') # subset from t1 not in t2
sqldf2 <- sqldf('SELECT * FROM t2 EXCEPT SELECT * FROM t1') # subset from t2 not in t1
sqldf3 <- sqldf('SELECT * FROM t1 UNION SELECT * FROM t2') # UNION t1 and t2
sqldf1 X1_10
1
2
3
4
sqldf2 X5_15
11
12
13
14
15
sqldf3 X1_10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
答案 4 :(得分:1)
使用与上述答案之一相同的示例数据。
A = c("Dog", "Cat", "Mouse")
B = c("Tiger","Lion","Cat")
match(A,B)
[1] NA 3 NA
match
函数返回一个向量,该向量在B
中的所有值在A
中具有位置。因此,cat
中的第二个元素A
是B
中的第三个元素。没有其他匹配项。
要获取A
和B
中的匹配值,您可以执行以下操作:
m <- match(A,B)
A[!is.na(m)]
"Cat"
B[m[!is.na(m)]]
"Cat"
要获取A
和B
中的不匹配值:
A[is.na(m)]
"Dog" "Mouse"
B[which(is.na(m))]
"Tiger" "Cat"
此外,您可以使用length()
来获取匹配和不匹配值的总数。
答案 5 :(得分:1)
如果A
是具有类型list字段a
的data.table,其条目本身就是原始类型的向量,例如创建如下
A<-data.table(a=c(list(c("abc","def","123")),list(c("ghi","zyx"))),d=c(9,8))
和B
是带有原始条目向量的列表,例如创建如下
B<-list(c("ghi","zyx"))
,您正在尝试查找A$a
的哪个元素(如果有)与B
匹配
A[sapply(a,identical,unlist(B))]
如果您只想输入a
A[sapply(a,identical,unlist(B)),a]
如果您想要a
的匹配索引
A[,which(sapply(a,identical,unlist(B)))]
如果B本身是具有与A相同结构的data.table,例如
B<-data.table(b=c(list(c("zyx","ghi")),list(c("abc","def",123))),z=c(5,7))
,您正在按列查找两个列表的交集,在此处需要相同顺序的向量元素。
# give the entry in A for in which A$a matches B$b
A[,`:=`(res=unlist(sapply(list(a),function(x,y){
x %in% unlist(lapply(y,as.vector,mode="character"))
},list(B[,b]),simplify=FALSE)))
][res==TRUE
][,res:=NULL][]
# get T/F for each index of A
A[,sapply(list(a),function(x,y){
x %in% unlist(lapply(y,as.vector,mode="character"))
},list(B[,b]),simplify=FALSE)]
请注意,您做不到的事
setkey(A,a)
setkey(B,b)
A[B]
加入A&B,因为您无法在data.table 1.12.2中键入list
类型的字段
类似地,你不能问
A[a==B[,b]]
即使A和B相同,因为尚未在==
类型的R中实现list
运算符