我有这种类型的数据(重复多次):
@@@FFDFFHHHHHJJFFHGIJJJJGI
@M00332:5:000000000-A0TVJ:1:1:13498:26189 2:N:0:1
ACCACAGCCGCTGCCCATTTGCATAA
+
使用regexp我正在尝试选择包含特定字符串cagccgctgcccatttg
的所有行。
我是一个正则表达式的新手,所以我试过这个:\w{3,}(cagccgctgcccatttg)\w{3,}
非常感谢任何帮助。
干杯 西蒙
答案 0 :(得分:3)
据我所知,您希望收集包含单个子序列的所有序列。我不知道你正在使用什么环境,但这应该以非常简单的方式返回你正在寻找的任何序列。
([ACGT]{3,}CAGCCGCTGCCCATTTG[ACGT]{3,})
括号是一个字符类,这意味着它匹配任何单个字符。你不想匹配\ w,你只想匹配一个角色,如果它是你正在寻找的4个角色之一。此外,您可以使用parens覆盖整个正则表达式以获取整个匹配。