我有一个名为mydf
的数据框。我想计算每个样本Left.Gene.Symbols
和Right.Gene.Symbols
中这些基因的频率,然后计算所有样本中的累积频率,得到预期的输出,如下所示。
mydf<-structure(c("AMLM12001KP", NA, "1114002", NA, NA, NA, NA, NA,
"1121501", NA, NA, NA, "NA", "NA", "NA", "NA", "CR1L", "GIGYF2:GIGYF2:GIGYF2:ENPP3",
"NA", "NA", "NA", "NA", "NTNG1:NTNG1:ENPP3", "NA", "NA", "NA",
"NA", "NA", "CDC27:CDC27", "NA", "ENPP3", "NA", "NA", "NA", "NA",
"NA"), .Dim = c(12L, 3L), .Dimnames = list(NULL, c("Sample_name",
"Left.Gene.Symbols", "Right.Gene.Symbols")))
预期产出:
Left.Gene.Symbols Right.Gene.Symbols
AMLM12001KP
1114002
CR1L=1 CDC27=2
GIGYF2=3 ENPP3=1
ENPP3=1
1121501
NTNG1=2
ENPP3=1
All_samples
CR1L=1 CDC27=2
GIGYF2=3 ENPP3=1
NTNG1=2
ENPP3=2