正则表达式:匹配DNA序列的排列

时间:2016-06-15 00:19:55

标签: javascript regex

如何制作正则表达式来评估以下字符串?

TGATGCCGTCCCCTCAACTTGAGTGCTCCTAATGCGTTGC

并提取模式CTCCT。

模式必须是3 C和2 T的任何顺序。

我试过/ [C | T] {5} /但它匹配CCCCT和TCCCC

先谢谢。

2 个答案:

答案 0 :(得分:3)

这不是使用正则表达式轻松解决的问题类型。它可以通过简单的功能相当直接地解决,但是

 function c3t2(str) {
  var lowerCaseStr = str.toLowerCase();
  for (index = 0; index + 5 <= str.length; index++) {
    var substring = lowerCaseStr.substring(index, index + 5);
    var chars = substring.split("");
    if (chars.sort().join("") === "ccctt") {
      return index;
    }
  }

  return false;
}

答案 1 :(得分:2)

计算&#34; CTCCT&#34;的所有排列。并将它们连接到正则表达式:

CCCTT|CCTCT|CCTTC|CTCCT|CTCTC|CTTCC|TCCCT|TCCTC|TCTCC|TTCCC

此模式可以是optimized

C(?:C(?:T(?:CT|TC)|CTT)|T(?:C(?:CT|TC)|TCC))|T(?:C(?:C(?:CT|TC)|TCC)|TCCC)

&#13;
&#13;
var regex = new RegExp(/C(?:C(?:T(?:CT|TC)|CTT)|T(?:C(?:CT|TC)|TCC))|T(?:C(?:C(?:CT|TC)|TCC)|TCCC)/g);

var string = "TGATGCCGTCCCCTCAACTTGAGTGCTCCTAATGCGTTGC";

console.log(regex.exec(string));
&#13;
&#13;
&#13;

这种模式没有找到重叠的匹配,例如: G。 CCCTTCCC只会有一场比赛。

要查找重叠匹配,请使用前瞻:

C(?=C(?=T(?=CT|TC)|CTT)|T(?=C(?=CT|TC)|TCC))|T(?=C(?=C(?=CT|TC)|TCC)|TCCC)

&#13;
&#13;
var regex = new RegExp(/C(?=C(?=T(?=CT|TC)|CTT)|T(?=C(?=CT|TC)|TCC))|T(?=C(?=C(?=CT|TC)|TCC)|TCCC)/g);

var string = "CCCTTCCC";

while ((match = regex.exec(string)) != null) {
    console.log(match.index, string.substring(match.index, match.index + 5));
}
&#13;
&#13;
&#13;

正则表达式只能处理相当有限数量的排列。如果要匹配可能任意大小的段,请使用非正则表达式解决方案:

&#13;
&#13;
function c3t2_optimized(str) {
  var c = 0, t = 0;
  for (var i = 0; i < str.length; ++i) {
    var last = str.charAt(i);
    if (last == 'C') ++c;
    else if (last == 'T') ++t;
    if (i > 4) {
      var first = str.charAt(i - 5);
      if (first == 'C') --c;
      else if (first == 'T') --t;
    }
    if (c == 3 && t == 2) return i - 4;
  }
  return -1;
}

var string = "TGATGCCGTCCCCTCAACTTGAGTGCTCCTAATGCGTTGC";
      
console.log(c3t2_optimized(string));
&#13;
&#13;
&#13;

或者与上面相同,就像一个生成器逐步完成所有可能重叠的匹配:

&#13;
&#13;
function* c3t2_optimized(str) {
  var c = 0, t = 0;
  for (var i = 0; i < str.length; ++i) {
    var last = str.charAt(i);
    if (last == 'C') ++c;
    else if (last == 'T') ++t;
    if (i > 4) {
      var first = str.charAt(i - 5);
      if (first == 'C') --c;
      else if (first == 'T') --t;
    }
    if (c == 3 && t == 2) yield i - 4;
  }
}

var string = "CCCTTCCC";

for (i of c3t2_optimized(string)) {
  console.log(i, string.substring(i, i + 5));
}
&#13;
&#13;
&#13;

效果比较: https://jsfiddle.net/24qguege/7/

Firefox 47:

  • 68.83ms - 正则表达式(见上文)
  • 97.51ms - 非正则表达式(见上文)
  • 9582.39ms - Andrew Rueckert's answer(更好的可读性)