如何为给定序列编写正则表达式

时间:2015-04-04 22:00:10

标签: regex bioinformatics

我有以下序列,我需要为其编写正则表达式。任何关于如何开始的提示或提示将不胜感激!

更新:我的任务是为给定的'alignment'编写一个reg表达式,而不是'sequence',因为我之前误读了。另外,我添加了空格来显示序列在赋值中的外观,只是没有空格。

QIQAAKIWAAKPYVDESRISIWGWSYGGF
QIAAAKHWAQKDYIDEDRLAIWGWSYGGY
QIQAAKAWGKKPYVDKTRMAIWGWSYGG
QIEATRQFSKMGFVDDKRIAIWGWSYGGY
QIEAARQFLKMGFVDSKRVAIWGWSYGGY
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKEVLKNRWADKDHIGIWGXSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
VGSASVSMMPRLPRLPQLLDQPGSSSGGY
FIAAAEYLKAEGYTRTDRLAIRGGSNGGL
FQCAAEYLIKEGYTSPKRLTINGGSNGGL
FQCAAEYLIKEGYTTSKRLTINGGSNGGL
FIAAGEYLQKNGYTSKDYMALSGRSNGGL
YLDACDALLKLGYGSPSLCYAMGGSAGGM
FIAAAKHLIDQNYTSPTKMAARGGSAGGL
QITAVRKFIEMGFIDEKRIAIWGWSYGGY
QLTAVRKFIEMGFIDEERIAIWGWSYGGY

1 个答案:

答案 0 :(得分:1)

以下是我要采取的步骤:

1)对齐序列
2)读取比对的每一列并产生每个位置中不同可能氨基酸的列表
3)现在每个位置都可以用一个容易转换成正则表达式的列表来表示

对于前三个位置,它将是:

(Q|V|F|Y)(I|V|G|Q|L)(T|A|D|L|S|F|E|Q)

哦,如果你想成为一名生物抑制剂研究生,大声哭泣,学习一些生物学!