同源蛋白质片段的系统发育树(来自宏基因组)

时间:2012-01-28 14:40:09

标签: bioinformatics

好吧,我有几百个感兴趣的蛋白质片段(699个序列),我想对齐并让邻居加入树。在许多情况下,这些片段彼此不能很好地对齐(相同或相似蛋白质的不同区域)。然而,已经定义了全蛋白质序列并将其提交给NCBI和其他数据库等。还有文献中针对这些蛋白质制备的树木。有没有办法从我的宏基因组中取出我的碎片,并将它们与已知的序列对齐,以定义我的每个碎片在已发布的树上的位置? 我唯一的解决方案是在预定义树上运行每个序列(或序列簇)(使用来自出版物的原始全蛋白序列),以便定义每个片段所在的位置。有更简单的方法吗?

1 个答案:

答案 0 :(得分:0)

对齐工具Clustal可以进行对齐,也可以使用正确的标记来制作树。我相信如果你创建一个fasta文件,其中包含所有序列,包括最大的一个宏基因组。它可以使您根据对齐分数自动生成系统发育树。我不确定这是否能实现你想要的一切,但这是一个开始。您可能必须创建多个.fasta文件,以使用一些智能设计和先验知识进行对齐,以产生所需的结果。这是我编写的Perl脚本,用于对齐和系统发生树:

#!/usr/bin/perl 


use warnings;

print "Please type the list file name of protein fasta files to align (end the directory   path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;

opendir (DIR,$directory) or die $!;

my @file = readdir DIR;
closedir DIR;

my $add="_align.fasta";

foreach $file (@file) {
 my $infile = "$directory$file";
 (my $fileprefix = $infile) =~ s/\.[^.]+$//;
 my $outfile="$fileprefix$add";
 system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA -tree";
}