我正在尝试按长度排序multiFASTA文件。我按字母顺序排序,但我似乎无法得到数字排序。输出应该是一个已排序的multiFASTA文件。这是另一个程序的选项。这是代码。
sub sort {
my $length;
my $key;
my $id;
my %seqs;
my $seq;
my $action = shift;
my $match = $opts{$action};
$match =~ /[l|id]/ || die "not the right parameters\n";
my $in = Bio::SeqIO->new(-file=>"$filename", -format=>'fasta');
while(my $seqobj = $in->next_seq()){
my $id = $seqobj->display_id();
my $length=$seqobj->length();
#$seq =~s/.{1,60}\K/\n/sg;
$seqs{$id} = $seqobj, unless $match eq 'l';
$seqs{$length}=$seqobj, unless $match eq 'id';
}
if($match eq 'id'){
foreach my $id (sort keys %seqs) {
printf ">%-9s \n%-s\n", $id, $seqs{$id}->seq;
}
}
elsif($match eq 'l'){
foreach my $length ( sort keys %seqs){
printf "%-10s\n%-s\n",$length, $seqs{$length}->seq;
}
}
}
答案 0 :(得分:0)
要进行数字排序,您必须提供比较子程序:
sort { $a <=> $b } keys %seqs
您确定没有两个序列可以具有相同的长度吗? $seqs{$length}=$seqobj
会覆盖以前存储的值。
答案 1 :(得分:0)
一个人:使用awk到linearize。第二个awk添加一个包含长度的列,在此列上排序,删除列,恢复fasta序列。
awk '/^>/ {printf("%s%s\t",(N>0?"\n":""),$0);N++;next;} {printf("%s",$0);} END {printf("\n");}' input.fa |\
awk -F '\t' '{printf("%d\t%s\n",length($2),$0);}' |\
sort -t $'\t' -k1,1n |\
cut -f 2- |\
tr "\t" "\n"
PS:对于生物信息学问题,您应该使用https://www.biostars.org/或https://bioinformatics.stackexchange.com/等...
答案 2 :(得分:0)
您可以使用pyfaidx或只看一下jim hester repos。但正如@pierre上面所说,你应该问你关于生物标签的问题。关于生物标记的答案可以找到here。