我是编程新手我过去几周一直在研究生物信息学问题,进展非常有限。
我有一个包含大量基因组的大型FASTA文件,我希望运行一个全对比的BLAST搜索,它将识别同源物/直向同源物(通过使用以下方法在整个长度上具有> = 95%的序列相似性来识别 - outfmt 6)在我的文件中,将那些和非同源/直系同源基因打印到生物体 - 基因存在/缺失矩阵(“1”=存在,“0”=缺席。我被告知一个整合的所有 - 对比-all BLAST更新文件的所有同源/同源,然后从数据库中删除这些并重复该过程,直到不能执行更多相关的BLAST搜索可能是一种方法来解决这个问题,但尽管我付出了努力,我仍然无法弄清楚如何均匀这样做。我希望尽可能在Python和/或Unix / Linux中这样做。
有人可以帮忙吗?
例如:
如果我有3个生物和4个基因,如果BLAST结果显示Gene_1存在于Organisms_1和2中; Gene_2存在于所有生物体中,Gene_3仅存在于Organism_1中,Gene_4仅存在于Organism_3中。
Gene_1 Gene_2 Gene_3 Gene_4
Org_1 1 1 1 0
Org_2 1 1 0 0
Org_3 0 1 0 1
答案 0 :(得分:1)
如果我理解正确,您需要获得以下信息:
- 这是同源物/直系同源基因
- 它们出现了什么物种
有一个程序,几乎所有这一切,让我向你介绍SiLiX
http://lbbe.univ-lyon1.fr/SiLiX
您可以下载它并将其参数设置为您的95%身份,您可以将其输入"你所有人反对一切爆炸的结果。你会得到一个包含你想要的信息的文件!
该文件易于解析(特别是在python中),因此您可以从中提取所需的所有信息。所以你可以创建你的矩阵。