Question

我有一个名为mydf的数据框。我想计算每个样本Left.Gene.Symbols和Right.Gene.Symbols中这些基因的频率，然后计算所有样本中的累积频率，得到预期的输出，如下所示。

mydf<-structure(c("AMLM12001KP", NA, "1114002", NA, NA, NA, NA, NA, 
    "1121501", NA, NA, NA, "NA", "NA", "NA", "NA", "CR1L", "GIGYF2:GIGYF2:GIGYF2:ENPP3", 
    "NA", "NA", "NA", "NA", "NTNG1:NTNG1:ENPP3", "NA", "NA", "NA", 
    "NA", "NA", "CDC27:CDC27", "NA", "ENPP3", "NA", "NA", "NA", "NA", 
    "NA"), .Dim = c(12L, 3L), .Dimnames = list(NULL, c("Sample_name", 
    "Left.Gene.Symbols", "Right.Gene.Symbols")))

预期产出：

 Left.Gene.Symbols      Right.Gene.Symbols
    AMLM12001KP

    1114002
    CR1L=1                  CDC27=2
    GIGYF2=3                ENPP3=1
    ENPP3=1

    1121501

    NTNG1=2 
    ENPP3=1

    All_samples

    CR1L=1                  CDC27=2
    GIGYF2=3                ENPP3=1
    NTNG1=2 
    ENPP3=2

计算每个样本中由分隔符分隔的字符串（基因）的频率

0 个答案: