查看蛋白质相互作用网络上的聚类算法结果

时间:2015-12-10 20:23:24

标签: bioinformatics protein-database

我正在研究一个涉及蛋白质相互作用网络聚类的项目,在相互作用的蛋白质图上做了几个聚类算法,我现在对于如何看待所创建的聚类是否是任何我感到有些困惑好

将此置于背景中蛋白质相互作用网络代表蛋白质与参与相同生物过程或共同执行特定功能的相互作用蛋白质的分离组之间的成对连接。这是非常重要的,因为许多蛋白质和相互作用是未标记的,因此如果某些标记的蛋白质存在于一个簇中,则可以对其功能进行推断。

与典型的监督机器学习任务不同,标记数据集可以显示或不显示正确分组的数量,良好的蛋白质聚类及其相互作用没有先例,假设所有蛋白质都是聚类的聚类在他们的一个群集中,与所有蛋白质在一个群集中的群集一样好(尽管在此中没有信息意义)。当然,也没有用于距离计算的特征向量,只有一个蛋白质是否与另一个蛋白质相互作用的二元信息,所以这是非常困难的。

这个问题完全是探索性的,很难看出群集是重要还是仅仅是假的。

大多数学术论文使用聚类分析技术来了解群集算法的效果如何。即。它们是否对边缘删除或节点删除,聚类相关等具有鲁棒性。我想看看是否有任何可以使用蛋白质数据库捕获的信息,比如输入大量的交互(来自一个簇)并查看是否已标记那些人倾向于参与相同的代谢过程。如果在一个代谢过程中涉及相当多的蛋白质,可以推测未标记的蛋白质可能参与类似的过程或功能,或类似地可能是蛋白质结构域的一部分。

我刚刚开始深入研究生物信息学和研究,所以很有可能之前已经完成了这项工作,而且我还没有充分了解它。如果是这种情况,我将不胜感激。我很感激任何可能的帮助,或者对如何思考这个问题的想法。

1 个答案:

答案 0 :(得分:0)

如果我理解你的问题:你想知道你的聚集蛋白质相互作用网络是否识别出与生物学相关的蛋白质复合物......

我可以想到三种方法:

1)使用主要研究文献。获取群集并搜索Pubmed以查找群集的每个成员,并查看是否有与群集的其他成员进行交互的任何报告。这将是耗时但最严格的。

2)将每个群集提交给GO术语富集分析(David,funcassociate等)或Pathway分析(Kegg)。如果群集具有“生物学”相关性,则应针对特定的GO / Kegg术语进行丰富。这只有在大多数蛋白质都有注释的情况下才有效。

3)查看表达数据。生物复合物倾向于具有相关的基因表达模式。表示集群应该与其成员关联,而不是与集群的非成员关联。

我想到了第四个:

4)在具有丰富且深入的注释数据库的生物体中查找同源物并在那里寻找相关性(酵母( S.cerevisiae 或S. pombe *),fly( D.melanogaster ),蠕虫( C elegans ),小鼠和人类都有大型蛋白质相互作用数据库(即Biogrid)。

第五名:

5)使用遗传屏幕数据。在这种情况下,遗传上位性数据将在复合体内具有不同的关系。处于同一复合体中的蛋白质往往不具有遗传相互作用。虽然分开/独立作用的复合物中的蛋白质可具有遗传相互作用组分。查看Charles Boone博士(多伦多大学)关于如何对其进行建模的工作。

最后的想法:

一些针对特定领域的知识将帮助其他人相信您的结果。熟知/研究的复合物是否形成集群?在这个领域已经做了很多工作,Pubmed将是你的朋友。从Biogrid开始,然后从那里开始锻炼。

祝你好运