R-转化一串重复氨基酸,例如NNNN到(N4)

时间:2017-11-27 19:09:03

标签: r regex

我正在计算来自多个序列比对的单倍型,并且正在获得一系列重复序列,例如RNNNNNNNT和RNNNT。有许多变化,使得很难理解数据。

数据如下所示,我有兴趣根据 haplotypes_1 生成 haplotypes_2 列:

hap_code    haplotypes_1          haplotypes_2
  1    SKNNNRNNNNNKNNNNNNNKF    SK(N3)R(N5)K(N7)KF
  2    SKNNNNNNNNNKNNNNNNNNKF   SK(N9)K(N8)KF
  3    SKNNNNNNNNNNNNNNNNKF     SK(N16)KF

1 个答案:

答案 0 :(得分:1)

prev <- ""
count <- 1
output <- ""
for (character in string) {
  if (character==prev) {
    count <- count + 1
  }
  else {
    if (count > 1) {
      output <- output + prev + toString(count)
    }
    else {
      output <- output + prev
    }
  }
  prev <- character
}

这暗示了我的评论,可能存在隐藏的问题,但要点就在那里。