我正在研究大约2600+基因组,并希望研究各组之间的基因组,基因和基因间特征。对于代表性很少的代表团而言,没有任何问题。如果分类群具有多个基因组,我将在什么基础上删除相似的基因组,以便从每个分类群中获得一些代表。我应该使用长度或GC%或其他一些特征去除基因组 - 如果两个基因组的GC%变异小于1%,我将删除它。有点像这样。请提出可接受的方式并善意解释原因。
Example:
I have around 60 genomes of Mycobacterium sps
More than 20 are of M. tuberculosis alone which have
GC% range of 65.48 to 65.7 and
Length range of 4.27 to 4.41 MB
在这种情况下如何筛选和删除相似的基因组?
答案 0 :(得分:0)
我认为没有理由将GC%用作可接受的过滤器。
对我来说有意义的是更具功能性的方法,例如1)共享基因,和2)所述基因的序列相似性。
答案 1 :(得分:0)
您可以先构建一个系统发育树,然后为每个(或多或少任意定义的)进化枝/组/簇选择一个或多个基因组。
我不建议使用单一标记基因构建树,因为在您的情况下,这些基因组/物种是非常密切相关的。尝试连接所有核心基因集。