从引用同一生物体的另一个fasta文件(tf)的文件中获取fasta序列(蛋白质组)

时间:2016-04-15 23:57:42

标签: fasta

基本上我有2个大的fasta序列文件,第一个是蛋白质组fasta序列(所有蛋白质序列),第二个是同一生物体的转录因子序列fasta文件,我只是想知道是否有任何我可以使用这两个文件将非转录序列提取为fasta文件的方式??非常感谢

1 个答案:

答案 0 :(得分:0)

答案是肯定的,基本上算法如下。

  1. 读入转录因子序列并存储为哈希或 字典。
  2. 扫描蛋白质组fasta序列,如果序列/位置是 不在hash / dict中,然后追加到array / list。
  3. 扫描后,取出所需格式的数组/列表并输出。
  4. 我之所以说hash / dict取决于你是在python还是其他lang中这样做的。