计算每个样本中由分隔符分隔的字符串(基因)的频率

时间:2015-12-11 00:53:48

标签: regex r bioinformatics frequency

我有一个名为mydf的数据框。我想计算每个样本Left.Gene.SymbolsRight.Gene.Symbols中这些基因的频率,然后计算所有样本中的累积频率,得到预期的输出,如下所示。

mydf<-structure(c("AMLM12001KP", NA, "1114002", NA, NA, NA, NA, NA, 
    "1121501", NA, NA, NA, "NA", "NA", "NA", "NA", "CR1L", "GIGYF2:GIGYF2:GIGYF2:ENPP3", 
    "NA", "NA", "NA", "NA", "NTNG1:NTNG1:ENPP3", "NA", "NA", "NA", 
    "NA", "NA", "CDC27:CDC27", "NA", "ENPP3", "NA", "NA", "NA", "NA", 
    "NA"), .Dim = c(12L, 3L), .Dimnames = list(NULL, c("Sample_name", 
    "Left.Gene.Symbols", "Right.Gene.Symbols")))

预期产出:

 Left.Gene.Symbols      Right.Gene.Symbols
    AMLM12001KP

    1114002
    CR1L=1                  CDC27=2
    GIGYF2=3                ENPP3=1
    ENPP3=1

    1121501

    NTNG1=2 
    ENPP3=1

    All_samples

    CR1L=1                  CDC27=2
    GIGYF2=3                ENPP3=1
    NTNG1=2 
    ENPP3=2

0 个答案:

没有答案