我正在用C / C ++编写一个程序来遍历一个格式如下的Fasta文件:
>ID and header information
SEQUENCE1
>ID and header information
SEQUENCE2
等等
以便找到所有唯一序列(检查是否有任何其他序列的子集) 并将唯一序列(和所有标题)写入输出文件。
我的方法是:
但是,我有点不确定如何正确阅读线条。我需要读取标题的顶行,然后“返回?”到下一行读取序列。有时序列跨越两行,所以我会使用>
(来自上面的例子)作为分隔符吗?如果我使用C ++,我想我会使用iostream来实现这个目标吗?
如果有人能给我一个正确的方向推动我想要阅读我需要操作的信息/如何进行比较,我们将不胜感激。
答案 0 :(得分:0)
首先,您可能希望使用存在alrady的内容,而不是编写自己的FASTA读取例程,请参阅:http://lh3lh3.users.sourceforge.net/parsefastq.shtml
在内部,您将拥有没有换行符的序列,这可能会有所帮助。我认为最高级别的最简单方法是