请帮助找到一个fasta格式的序列起始位置的位置是35658014,结束位置分别是3个和5个区域的35657750。我的序列是逐行的。
感谢你
答案 0 :(得分:1)
您是否尝试在这些位置获取实际的基因代码?我不知道Bio Perl但是如果它只是一个字符串,这就是你可以做的:
首先,这个正则表达式将从字符串中删除垃圾:
$seq =~ s/^>*.+\n//;
这个将删除换行符
$seq =~ s/\n//g;
然后只使用常规perl substr:http://perldoc.perl.org/functions/substr.html
my $section = substr($seq, $start-1, $end-$start);
假设您的开始和结束将第一个元素计为1。
当然,如果您已经在使用bioperl(您可能应该这样做),请使用subseq函数:http://doc.bioperl.org/releases/bioperl-1.0.1/Bio/Seq.html#POD8。该页面有足够的信息可以读取FASTA序列,并根据开始和结束从中获取代码。