我有以下序列,我需要为其编写正则表达式。任何关于如何开始的提示或提示将不胜感激!
更新:我的任务是为给定的'alignment'编写一个reg表达式,而不是'sequence',因为我之前误读了。另外,我添加了空格来显示序列在赋值中的外观,只是没有空格。
QIQAAKIWAAKPYVDESRISIWGWSYGGF
QIAAAKHWAQKDYIDEDRLAIWGWSYGGY
QIQAAKAWGKKPYVDKTRMAIWGWSYGG
QIEATRQFSKMGFVDDKRIAIWGWSYGGY
QIEAARQFLKMGFVDSKRVAIWGWSYGGY
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKEVLKNRWADKDHIGIWGXSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
VGSASVSMMPRLPRLPQLLDQPGSSSGGY
FIAAAEYLKAEGYTRTDRLAIRGGSNGGL
FQCAAEYLIKEGYTSPKRLTINGGSNGGL
FQCAAEYLIKEGYTTSKRLTINGGSNGGL
FIAAGEYLQKNGYTSKDYMALSGRSNGGL
YLDACDALLKLGYGSPSLCYAMGGSAGGM
FIAAAKHLIDQNYTSPTKMAARGGSAGGL
QITAVRKFIEMGFIDEKRIAIWGWSYGGY
QLTAVRKFIEMGFIDEERIAIWGWSYGGY
答案 0 :(得分:1)
以下是我要采取的步骤:
1)对齐序列
2)读取比对的每一列并产生每个位置中不同可能氨基酸的列表
3)现在每个位置都可以用一个容易转换成正则表达式的列表来表示
对于前三个位置,它将是:
(Q|V|F|Y)(I|V|G|Q|L)(T|A|D|L|S|F|E|Q)
哦,如果你想成为一名生物抑制剂研究生,大声哭泣,学习一些生物学!