我想将肽序列与给定的蛋白质序列进行匹配。我每种蛋白质含有大量多肽,其中一些也是重叠的。对于输出,我想有一个新文件,它也告诉我序列在蛋白质中的位置。 蛋白质例子:
sp | O00170 | AIP_HUMAN AH受体相互作用蛋白OS = Homo sapiens GN = AIP PE = 1 SV = 2 MADIIARLREDGIQKRVIQEGRGELPDFQDGTKATFHYRTLHSDDEGTVLDDSRARGKPM ELIIGKKFKLPVWETIVCTMREGEIAQFLCDIKHVVLYPLVAKSLRNIAVGKDPLEGQRH CCGVAQMREHSSLGHADLDALQQNPQPLIFHMEMLKVESPGTYQQDPWAMTDEEKAKAVP LIHQEGNRLYREGHVKEAAAKYYDAIACLKNLQMKEQPGSPEWIQLDQQITPLLLNYCQC KLVVEEYYEVLDHCSSILNKYDDNVKAYFKRGKAHAAVWNAQEAQADFAKVLELDPALAP VVSRELQALEARIRQKDEEDKARFRGIFSH 该蛋白质的肽: AHAAVWNAQEAQADFAK
AVPLIHQEGNR
EHSSLGHADLDALQQNPQPLIFHMEMLK
GELPDFQDGTK
NIAVGKDPLEGQR
RVIQEGRGELPDFQDGTK
TLHSDDEGTVLDDSR
VESPGTYQQDPWAMTDEEK
VLELDPALAPVVSR
我想为许多蛋白质做到这一点,有一个简单的解决方案吗?
非常感谢!
答案 0 :(得分:0)
不确定您使用的语言是什么,但在循环中进行简单的字符串搜索有什么问题?
这是显而易见的解决方案,除非你必须在很短的时间内计算出这些中的淫秽数量。 (我估计如果你需要每秒超过200个,那么你可能需要考虑更优化的算法。)