如何在fasta格式的序列中找到每个碱基的位置

时间:2011-10-27 21:39:38

标签: perl

请帮助找到一个fasta格式的序列起始位置的位置是35658014,结束位置分别是3个和5个区域的35657750。我的序列是逐行的。

感谢你

1 个答案:

答案 0 :(得分:1)

您是否尝试在这些位置获取实际的基因代码?我不知道Bio Perl但是如果它只是一个字符串,这就是你可以做的:

首先,这个正则表达式将从字符串中删除垃圾:

$seq =~ s/^>*.+\n//;

这个将删除换行符

$seq =~ s/\n//g;

然后只使用常规perl substr:http://perldoc.perl.org/functions/substr.html

my $section = substr($seq, $start-1, $end-$start);

假设您的开始和结束将第一个元素计为1。

当然,如果您已经在使用bioperl(您可能应该这样做),请使用subseq函数:http://doc.bioperl.org/releases/bioperl-1.0.1/Bio/Seq.html#POD8。该页面有足够的信息可以读取FASTA序列,并根据开始和结束从中获取代码。