Question

好吧，我有几百个感兴趣的蛋白质片段（699个序列），我想对齐并让邻居加入树。在许多情况下，这些片段彼此不能很好地对齐（相同或相似蛋白质的不同区域）。然而，已经定义了全蛋白质序列并将其提交给NCBI和其他数据库等。还有文献中针对这些蛋白质制备的树木。有没有办法从我的宏基因组中取出我的碎片，并将它们与已知的序列对齐，以定义我的每个碎片在已发布的树上的位置？我唯一的解决方案是在预定义树上运行每个序列（或序列簇）（使用来自出版物的原始全蛋白序列），以便定义每个片段所在的位置。有更简单的方法吗？

Answer 1

对齐工具Clustal可以进行对齐，也可以使用正确的标记来制作树。我相信如果你创建一个fasta文件，其中包含所有序列，包括最大的一个宏基因组。它可以使您根据对齐分数自动生成系统发育树。我不确定这是否能实现你想要的一切，但这是一个开始。您可能必须创建多个.fasta文件，以使用一些智能设计和先验知识进行对齐，以产生所需的结果。这是我编写的Perl脚本，用于对齐和系统发生树：

#!/usr/bin/perl 


use warnings;

print "Please type the list file name of protein fasta files to align (end the directory   path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;

opendir (DIR,$directory) or die $!;

my @file = readdir DIR;
closedir DIR;

my $add="_align.fasta";

foreach $file (@file) {
 my $infile = "$directory$file";
 (my $fileprefix = $infile) =~ s/\.[^.]+$//;
 my $outfile="$fileprefix$add";
 system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA -tree";
}

同源蛋白质片段的系统发育树（来自宏基因组）

1 个答案: