在R中的每一行上执行if语句

时间:2011-05-04 16:40:30

标签: function r syntax apply

我正在将一个csv文件读入R,看起来像这样:

3,3
3,2
3,3
3,3
3,3
3,3
2,3
1,2
2,2
3,3

我想为我的数据可能的9种独特可能性中的每一种分配一个数字(3和3是9,3和2是8,2和3是6等)。我一直在尝试设计一个嵌套的if语句,它将评估每一行,在第三列中分配一个数字,并为数据集中的每一行执行此操作。我相信这可以通过apply函数来完成,但是我无法在apply函数中使用if语句。这两列都有可能的值1,2或3.这是我的代码到目前为止,只是尝试分配9到3/3列,0到其他所有列:

#RScript for haplotype analysis

#remove(list=ls())
options(stringsAsFactors=FALSE)
setwd("C:/Documents and Settings/ColumbiaPC/Desktop")

#read in comma-delimited, ID-matched genotype data
OXT <- read.csv("OXTRhaplotype.csv")
colnames(OXT)<- c("OXT1","OXT2")

OXT$HAP <- apply(OXT, 1, function(x) if(x[1]=="3"&&x[2]=="3")x[3]=="9" else 0))

感谢您提前提供任何帮助。

4 个答案:

答案 0 :(得分:11)

您可以使用矩阵和标准R子集来解决您描述的问题,而不需要任何if语句

m <- matrix(1:9, nrow=3, byrow=TRUE)
m

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9

这意味着你可以使用矩阵子集来索引m:

m[3, 2]
[1] 8

m[3,3]
[1] 9

m[2,3]
[1] 6

现在您可以将其应用于您的数据:

df <- structure(list(V1 = c(3L, 3L, 3L, 3L, 3L, 3L, 2L, 1L, 2L, 3L), 
        V2 = c(3L, 2L, 3L, 3L, 3L, 3L, 3L, 2L, 2L, 3L)), .Names = c("V1", 
        "V2"), class = "data.frame", row.names = c(NA, -10L))

#df$m <- sapply(seq_len(nrow(df)), function(i)m[df$V1[i], df$V2[i]])
df$m <- m[as.matrix(df)]  # Use matrix subsetting, suggested by @Aaron
df

   V1 V2 m
1   3  3 9
2   3  2 8
3   3  3 9
4   3  3 9
5   3  3 9
6   3  3 9
7   2  3 6
8   1  2 2
9   2  2 5
10  3  3 9

答案 1 :(得分:5)

不幸的是,我来晚了,使用类似于@Andrie的解决方案,就像这样:

dat <- matrix(c(3,3,3,2,3,3,3,3,3,3,3,3,2,3,1,2,2,2,3,3), 
              nr=10, byrow=TRUE) 
# here is our lookup table for genotypes
pat <- matrix(1:9, nr=3, byrow=T, dimnames=list(1:3,1:3))

然后

> pat[dat]
 [1] 9 8 9 9 9 9 6 2 5 9

给你你想要的东西。

但是,我想说您可能会发现更容易使用专用包进行基因研究,例如在CRAN上找到的包(例如geneticsgap或{{1仅举几例)或Bioconductor,因为它们包含用于转换/重新编码基因型数据和处理单倍型的工具。

以下是我对上述评论的一个例子:

SNPassoc

答案 2 :(得分:5)

Andrie已经通过更好地解决您的问题来回答您的问题。但是我想提到的原始代码中有一些错误。

首先,&&&不同。有关详情,请参阅?'&'。我相信你想在你的例子中使用&

其次,==用于相等性测试,您最初在示例中正确使用它。它不用于分配,在将{9}分配给x[3]时,您错误地将其用于分配。分配由<-处理,无论是内部还是外部功能。有关详情,请参阅?'=='?'<-'

第三,在x[3]函数中为apply()赋值是没有意义的。 apply()只返回一个数组。它不会修改OXT对象。以下是原始方法的外观示例。但是,Andrie的方法对你来说可能更好。

OXT <- read.table(textConnection(
    "3 3
    3 2
    3 3
    3 3
    3 3
    3 3
    2 3
    1 2
    2 2
    3 3"))
colnames(OXT)<- c("OXT1","OXT2")

OXT$HAP <- apply(OXT, 1, function(x)
    {
        if(x[1] == 3 & x[2] == 3) result <- 9
        else if(x[1] == 3 & x[2] == 2) result <- 8
        else if(x[1] == 3 & x[2] == 1) result <- 7
        else result <- 0
        return(result)
    })

答案 3 :(得分:3)

另一种方法是将两列粘贴在一起并制作一个因子。

df <- structure(list(V1 = c(3L, 3L, 3L, 3L, 3L, 3L, 2L, 1L, 2L, 3L), 
        V2 = c(3L, 2L, 3L, 3L, 3L, 3L, 3L, 2L, 2L, 3L)), .Names = c("V1", 
        "V2"), class = "data.frame", row.names = c(NA, -10L))

df$hap <- factor(paste(df$V1, df$V2, sep=""))

或等效地,

df$hap2 <- factor(apply(df[1:2], 1, paste, collapse=""))