从下一代测序数据中重新设计R中的重复测量

时间:2014-01-12 01:43:16

标签: r bioinformatics reshape

我在R中有数据集:

ddat <- data.frame(gene=rep(1:4,1), ID.pat=rep(c("0", "1"), each=10), allele.freq =runif(20,min=0,max=1), SNV=round(runif(20,min=0,max=4)))

ddat

     gene ID.pat allele.freq SNV
 1     1      0  0.96841970   1
 2     2      0  0.77859462   2
 3     3      0  0.38308071   0
 4     4      0  0.03842660   4
 5     1      0  0.11313244   1
 6     2      0  0.25727911   0
 7     3      0  0.73430856   1
 8     4      0  0.93272543   0
 9     1      0  0.48698303   3
 10    2      0  0.76762848   1
 11    3      1  0.86238286   1
 12    4      1  0.87513463   2
 13    1      1  0.78232771   2
 14    2      1  0.24493196   1
 15    3      1  0.41582649   0
 16    4      1  0.49521680   4
 17    1      1  0.17983000   2
 18    2      1  0.06170987   0
 19    3      1  0.23552103   1
 20    4      1  0.26549472   0

我使用了强制转换,合并和重塑功能: 即 cast(ddat,ID.pat~gene,value.var =“allele.freq”)

我想要有以下数据框:

 ID.pat   gene      SNP_0         SNP_1        SNP_2        SNP_3  ... gene_4_SNP_4
1      0    1    allele.freq   allele.freq   allele.freq  allele.freq
2      1    1    allele.freq   allele.freq   allele.freq  allele.freq
.      .    .          .            .               .          .

如何修改代码以便生成所需的输出?

1 个答案:

答案 0 :(得分:0)

加载reshape2包。

library(reshape2)

首先,修改你的SNV变量(你在输出数据框中用前缀“SNP_”标记它,这样我就可以了。)

ddat$SNV <- paste0("SNP_",ddat$SNV)

定义一个聚合结果的函数。如果没有多个值,则不必将此参数传递给dcast(或者您可以将identity传递给显式)。

fun.aggregate <- function(x) 
  if(length(x)==0) as.character(NA) else paste(round(x,3),collapse=",")

使用dcast中的reshape2将数据框格式化为宽屏格式:

dcast(ddat,ID.pat+gene~SNV,fun.aggregate,value.var="allele.freq")

然后您的输出将如下所示:

 ID.pat gene SNP_0 SNP_1       SNP_2 SNP_3 SNP_4
1      0    1  <NA> 0.387       0.125 0.825  <NA>
2      0    2  <NA>  <NA> 0.296,0.775  <NA> 0.971
3      0    3  <NA> 0.172        <NA>  <NA> 0.873
4      0    4  0.87 0.337        <NA>  <NA>  <NA>
5      1    1  <NA>  0.49        <NA> 0.455  <NA>
6      1    2 0.169  <NA>       0.402  <NA>  <NA>
7      1    3  <NA>  <NA> 0.754,0.168 0.509  <NA>
8      1    4  <NA>  <NA>        0.86 0.737 0.625