基因集富集分析

时间:2013-07-11 06:11:27

标签: r database ontology bioconductor

我使用了cummeRbund函数 findSimilar()来找到与我使用Cuffdiff鉴定的差异表达基因的10个最相似的基因。这使用了Jensen-Shannon距离并产生了排序的有序基因列表,我现在想要测试GO富集。该文件如下所示:

"XLOC_007917" 0
"XLOC_008881" 0.00417099861122699 
"XLOC_017692" 0.0178758082512721 
"XLOC_008901" 0.0180682577435933 
"XLOC_014267" 0.0333227735282459 
"XLOC_013408" 0.0400392521794019 
"XLOC_013497" 0.0412541820119971 
"XLOC_010554" 0.0453928603025379 
"XLOC_000570" 0.0461264880687295 
"XLOC_010786" 0.0469577467848723 

我首先手动搜索每个最相似基因的GO术语,但我想做一个更强大的分析。我正在尝试运行来自Broad Institute的Java应用程序GSEA。

我制作了我的排名列表文件格式(* .rnk),现在我必须选择基因集数据库。

我正在研究海绵物种,所以我不能使用已经提供的数据库。

如何创建自己的基因集数据库?它应该是什么样的?

2 个答案:

答案 0 :(得分:0)

辅助集会后,我的策略有所不同。我使用Cufflinks提取新发现的基因的序列,找到CDS,做BLAST,并获得GO术语。另一种选择是使用已知ID的基因并使用gProfiler进行富集分析。例如,您可以免费试用Blast2go进行分析。您可以在本地安装数据库,Blast会更快。您可以使用Blast2go进行浓缩分析。您还可以使用从他们的工具库存储库安装Galaxy实例和获取Blast2go。

答案 1 :(得分:0)

要使其与GSEA一起使用,您需要在文件的第一列中将官方人类基因符号作为基因标识符。确保每个基因在排名列表中只出现一次也是一个好主意。另请注意,在预排名模式下,GSEA始终按降序对输入进行排序。