如何制作正则表达式来评估以下字符串?
TGATGCCGTCCCCTCAACTTGAGTGCTCCTAATGCGTTGC
并提取模式CTCCT。
模式必须是3 C和2 T的任何顺序。
我试过/ [C | T] {5} /但它匹配CCCCT和TCCCC
先谢谢。
答案 0 :(得分:3)
这不是使用正则表达式轻松解决的问题类型。它可以通过简单的功能相当直接地解决,但是
function c3t2(str) {
var lowerCaseStr = str.toLowerCase();
for (index = 0; index + 5 <= str.length; index++) {
var substring = lowerCaseStr.substring(index, index + 5);
var chars = substring.split("");
if (chars.sort().join("") === "ccctt") {
return index;
}
}
return false;
}
答案 1 :(得分:2)
计算&#34; CTCCT&#34;的所有排列。并将它们连接到正则表达式:
CCCTT|CCTCT|CCTTC|CTCCT|CTCTC|CTTCC|TCCCT|TCCTC|TCTCC|TTCCC
此模式可以是optimized:
C(?:C(?:T(?:CT|TC)|CTT)|T(?:C(?:CT|TC)|TCC))|T(?:C(?:C(?:CT|TC)|TCC)|TCCC)
var regex = new RegExp(/C(?:C(?:T(?:CT|TC)|CTT)|T(?:C(?:CT|TC)|TCC))|T(?:C(?:C(?:CT|TC)|TCC)|TCCC)/g);
var string = "TGATGCCGTCCCCTCAACTTGAGTGCTCCTAATGCGTTGC";
console.log(regex.exec(string));
&#13;
这种模式没有找到重叠的匹配,例如: G。 CCCTTCCC
只会有一场比赛。
要查找重叠匹配,请使用前瞻:
C(?=C(?=T(?=CT|TC)|CTT)|T(?=C(?=CT|TC)|TCC))|T(?=C(?=C(?=CT|TC)|TCC)|TCCC)
var regex = new RegExp(/C(?=C(?=T(?=CT|TC)|CTT)|T(?=C(?=CT|TC)|TCC))|T(?=C(?=C(?=CT|TC)|TCC)|TCCC)/g);
var string = "CCCTTCCC";
while ((match = regex.exec(string)) != null) {
console.log(match.index, string.substring(match.index, match.index + 5));
}
&#13;
正则表达式只能处理相当有限数量的排列。如果要匹配可能任意大小的段,请使用非正则表达式解决方案:
function c3t2_optimized(str) {
var c = 0, t = 0;
for (var i = 0; i < str.length; ++i) {
var last = str.charAt(i);
if (last == 'C') ++c;
else if (last == 'T') ++t;
if (i > 4) {
var first = str.charAt(i - 5);
if (first == 'C') --c;
else if (first == 'T') --t;
}
if (c == 3 && t == 2) return i - 4;
}
return -1;
}
var string = "TGATGCCGTCCCCTCAACTTGAGTGCTCCTAATGCGTTGC";
console.log(c3t2_optimized(string));
&#13;
或者与上面相同,就像一个生成器逐步完成所有可能重叠的匹配:
function* c3t2_optimized(str) {
var c = 0, t = 0;
for (var i = 0; i < str.length; ++i) {
var last = str.charAt(i);
if (last == 'C') ++c;
else if (last == 'T') ++t;
if (i > 4) {
var first = str.charAt(i - 5);
if (first == 'C') --c;
else if (first == 'T') --t;
}
if (c == 3 && t == 2) yield i - 4;
}
}
var string = "CCCTTCCC";
for (i of c3t2_optimized(string)) {
console.log(i, string.substring(i, i + 5));
}
&#13;
效果比较: https://jsfiddle.net/24qguege/7/
Firefox 47: