我正在尝试使用rowSums
来计算一组样本中核苷酸存在的实例数。
我的df的大小为37,000,000行x 52列。
一个简短的例子:
Chromosome,Position,Allele1,Allele2,Sample1,Sample2,Sample3,Sample4
1,1,T,A,T,T,T,A
我想创建一个新列,其中包含在该行中观察到的列Allele1
的值的次数,不包括列Allele1
和Allele2
。
我尝试了以下方法,但没有成功:
df$Allele1_counts <- rowSums(df[-4] == df$Allele1)
应注意,Allele1
和Allele2
是具有4个可能水平(ACGT)的因子,每个Sample
是具有5个可能水平(ACGTN)的因子,其中N是没有核苷酸读取。
以上示例中的预期输出在Allele1_counts
下为3,在Allele2_counts
下为1。