字母因子行数

时间:2018-09-27 19:03:12

标签: r

我正在尝试使用rowSums来计算一组样本中核苷酸存在的实例数。

我的df的大小为37,000,000行x 52列。

一个简短的例子:

Chromosome,Position,Allele1,Allele2,Sample1,Sample2,Sample3,Sample4
1,1,T,A,T,T,T,A

我想创建一个新列,其中包含在该行中观察到的列Allele1的值的次数,不包括列Allele1Allele2

我尝试了以下方法,但没有成功:

df$Allele1_counts <- rowSums(df[-4] == df$Allele1)

应注意,Allele1Allele2是具有4个可能水平(ACGT)的因子,每个Sample是具有5个可能水平(ACGTN)的因子,其中N是没有核苷酸读取。

以上示例中的预期输出在Allele1_counts下为3,在Allele2_counts下为1。

0 个答案:

没有答案