使用r中的if语句填充列

时间:2012-12-02 19:17:04

标签: r

我有一个很简单的问题,我目前正在努力解决这个问题。如果我有一个示例数据帧:

a <- c(1:5)  
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)

如何创建新列('c'),然后使用列b上的if语句填充该列。例如: 'cat'表示b中的值为1或2 'dog'表示b中3到5之间的值 对于b中大于6的那些值,'兔'

因此,使用数据框df1的列'c'将显示为:cat,dog,dog,rabbit,rabbit。

非常感谢提前。

3 个答案:

答案 0 :(得分:6)

dfrm$dc <- c("dog", "cat", "rabbit")[ findInterval(dfrm$b, c(1, 2.5, 5.5, Inf)) ]

findInterval方法比嵌套的ifelse策略快得多,而且我猜测要比循环无法if语句的函数快得多。当我们选择效率低下的算法时,我们这些使用更大数据的人会注意到差异。

这实际上并没有解决请求,但我并不总是认为R的新用户会知道最有表现力或最有效的问题方法。 “使用IF”的请求听起来像是翻译两个主要宏统计处理器SPSS和SAS的典型编码方法的努力。 R if控制结构通常不是重新编码列的有效方法,因为只能对第一个元素计算其第一个位置的参数。它本身不处理列,而ifelse函数会这样做。这里可能使用了cut函数(带有适当的breakslabels参数),尽管它会传递factor - 值而不是字符值。选择findInterval方法是因为它能够返回多个级别(单个ifelse不能)。我认为在约2或3级嵌套之后,链接或嵌套ifelse会很快变得丑陋和混乱。

答案 1 :(得分:2)

df1 <- 
    transform(
        df1 ,
        c =
            ifelse( b %in% 1:2 , 'cat' ,
            ifelse( b %in% 3:5 , 'dog' , 'rabbit' ) ) )

答案 2 :(得分:2)

尽管ifelse()很有用,但有时它并不能提供人们直观的期望。所以,我喜欢写出来。

a <- c(1:5)  
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)

species <- function(x) { 
if(x == 1 | x == 2) y <- "cat"
if(x > 2 & x < 6) y <- "dog"
if(x > 6) y <- "rabbit"
return(y)
}

df1$c <- sapply(df1$b,species)