我的数据框有四个逻辑向量, v1 , v2 , v3 , v4 为TRUE或者错误。我需要根据布尔向量的组合对数据帧的每一行进行分类(例如,&#34;无&#34; ,&#34;仅限v1&#34; < / strong>,&#34; v1和v3&#34; ,&#34;所有&#34; 等)。我想这样做而不需要获取数据帧的子集或嵌套ifelse语句。 有关最佳方法的建议吗?谢谢!
答案 0 :(得分:3)
这是一种依赖于TRUE / FALSE
可以表示为0和1的事实的方法。您可以将布尔值乘以列索引,然后将所有值粘贴在一起。这将告诉您每行的值为1。这是一个例子:
set.seed(1)
dat <- data.frame(v1 = sample(c(T,F), 10, TRUE),
v2 = sample(c(T,F), 10, TRUE),
v3 = sample(c(T,F), 10, TRUE),
v4 = sample(c(T,F), 10, TRUE)
)
#End fake data
#Multiple T/F times the column index
dat <- dat * rep(seq_len(ncol(dat)), each = nrow(dat))
#Paste together in a new column
dat$v5 <- apply(dat, 1, function(x) paste(x, collapse = ""))
> dat
v1 v2 v3 v4 v5
1 0 0 3 4 0034
2 0 2 0 4 0204
...
纳入以下有用的评论和其他问题
我会使用expand.grid()
创建一个查找表,然后编写文本标签来表示它们,但是您认为合适。这是一个包含两列的示例:
set.seed(1)
dat <- data.frame(v1 = sample(c(T,F), 10, TRUE),
v2 = sample(c(T,F), 10, TRUE)
)
#Thanks @Joshua
dat$comp <- as.character(apply(1 * dat, 1, paste, collapse=""))
#Look up table
lookup <- data.frame(comp = apply(expand.grid(0:1, 0:1), 1, paste, collapse = ""),
text = c("none", "v1 only", "v2 only", "all"),
stringsAsFactors = FALSE
)
#Use merge to join the look up table to your data. Note the consistent naming of the comp column
> merge(dat, lookup)
comp v1 v2 text
1 00 FALSE FALSE none
2 00 FALSE FALSE none
3 01 FALSE TRUE v2 only
....
答案 1 :(得分:3)
看起来我已经迟到了这个派对。不过,我不妨分享一下我带来的东西!
这可以通过处理像FALSE/TRUE
这样的可能性来操作,并对它们进行操作,以便为v1
,v2
和v3
的每个组合分配1之间的唯一整数和8(很像chmod
可以表示*NIX
系统上的权限位)。然后将整数用作索引,以选择文本描述符向量的适当元素。
(为了演示,我只使用了三列,但这种方法可以很好地扩展。)
# CONSTRUCT VECTOR OF DESCRIPTIONS
description <- c("None", "v1", "v2", "v1 and v2",
"v3", "v1 and v3", "v2 and v3", "All")
# DEFINE DESCRIPTION FUNCTION
getDescription <- function(X) {
index <- 1 + sum(X*c(1,2,4))
description[index]
}
# TRY IT OUT ON ALL COMBOS OF v1, v2, and v3
df <- expand.grid(v1=c(FALSE, TRUE),
v2=c(FALSE, TRUE),
v3=c(FALSE, TRUE))
df$description <- apply(df, 1, getDescription)
# YEP, IT WORKS.
df
# v1 v2 v3 description
# 1 FALSE FALSE FALSE None
# 2 TRUE FALSE FALSE v1
# 3 FALSE TRUE FALSE v2
# 4 TRUE TRUE FALSE v1 and v2
# 5 FALSE FALSE TRUE v3
# 6 TRUE FALSE TRUE v1 and v3
# 7 FALSE TRUE TRUE v2 and v3
# 8 TRUE TRUE TRUE All
答案 2 :(得分:2)
让我把帽子戴在戒指上
plyr::adply(dat, 1, function(x) paste(names(Filter(isTRUE, x)), collapse = " and "))
v1 v2 v3 v4 V1
1 TRUE TRUE FALSE TRUE v1 and v2 and v4
2 TRUE TRUE TRUE FALSE v1 and v2 and v3
3 FALSE FALSE FALSE TRUE v4
4 FALSE TRUE TRUE TRUE v2 and v3 and v4
5 TRUE FALSE TRUE FALSE v1 and v3
6 FALSE TRUE TRUE FALSE v2 and v3
7 FALSE FALSE TRUE FALSE v3
8 FALSE FALSE TRUE TRUE v3 and v4
9 FALSE TRUE FALSE FALSE v2
10 TRUE FALSE TRUE TRUE v1 and v3 and v4
答案 3 :(得分:1)
set.seed(123)
> dat <- data.frame(v1 = sample(c(T,F), 10, TRUE),
+ v2 = sample(c(T,F), 10, TRUE),
+ v3 = sample(c(T,F), 10, TRUE),
+ v4 = sample(c(T,F), 10, TRUE)
+ )
> dat
第一种策略使用各种模式组合索引到一个字符向量,默认值为1,用于索引“其他”:
> dat$bcateg <- c("Other", "v2 only", "v1 and v3", "All")[1+
+ with(dat, 1*(v2 & !v1 &!v3 &!v4))
+ +with(dat, 2*(v1&v3))+
+ with(dat, v1&v2&v3&v4)]
> dat
v1 v2 v3 v4 bcateg
1 TRUE FALSE FALSE FALSE Other
2 FALSE TRUE FALSE FALSE v2 only
3 TRUE FALSE FALSE FALSE Other
4 FALSE FALSE FALSE FALSE Other
5 FALSE TRUE FALSE TRUE Other
6 TRUE FALSE FALSE TRUE Other
7 FALSE TRUE FALSE FALSE v2 only
8 FALSE TRUE FALSE TRUE Other
9 FALSE TRUE TRUE TRUE Other
10 TRUE FALSE TRUE TRUE v1 and v3
第二个策略使用“,”分隔符连接TRUE的列名:
> dat$bcateg2 <-paste( c("","v1")[dat[["v1"]]+1 ], c("","v2")[dat[["v2"]]+1 ], c("","v3")[dat[["v3"]]+1 ], c("","v4")[dat[["v4"]]+1 ], sep = ",")
> dat
v1 v2 v3 v4 bcateg bcateg2
1 TRUE FALSE FALSE FALSE Other v1,,,
2 FALSE TRUE FALSE FALSE v2 only ,v2,,
3 TRUE FALSE FALSE FALSE Other v1,,,
4 FALSE FALSE FALSE FALSE Other ,,,
5 FALSE TRUE FALSE TRUE Other ,v2,,v4
6 TRUE FALSE FALSE TRUE Other v1,,,v4
7 FALSE TRUE FALSE FALSE v2 only ,v2,,
8 FALSE TRUE FALSE TRUE Other ,v2,,v4
9 FALSE TRUE TRUE TRUE Other ,v2,v3,v4
10 TRUE FALSE TRUE TRUE v1 and v3 v1,,v3,v4