Question

我使用了cummeRbund函数 findSimilar（）来找到与我使用Cuffdiff鉴定的差异表达基因的10个最相似的基因。这使用了Jensen-Shannon距离并产生了排序的有序基因列表，我现在想要测试GO富集。该文件如下所示：

"XLOC_007917" 0
"XLOC_008881" 0.00417099861122699 
"XLOC_017692" 0.0178758082512721 
"XLOC_008901" 0.0180682577435933 
"XLOC_014267" 0.0333227735282459 
"XLOC_013408" 0.0400392521794019 
"XLOC_013497" 0.0412541820119971 
"XLOC_010554" 0.0453928603025379 
"XLOC_000570" 0.0461264880687295 
"XLOC_010786" 0.0469577467848723

我首先手动搜索每个最相似基因的GO术语，但我想做一个更强大的分析。我正在尝试运行来自Broad Institute的Java应用程序GSEA。

我制作了我的排名列表文件格式（* .rnk），现在我必须选择基因集数据库。

我正在研究海绵物种，所以我不能使用已经提供的数据库。

如何创建自己的基因集数据库？它应该是什么样的？

Answer 1

辅助集会后，我的策略有所不同。我使用Cufflinks提取新发现的基因的序列，找到CDS，做BLAST，并获得GO术语。另一种选择是使用已知ID的基因并使用gProfiler进行富集分析。例如，您可以免费试用Blast2go进行分析。您可以在本地安装数据库，Blast会更快。您可以使用Blast2go进行浓缩分析。您还可以使用从他们的工具库存储库安装Galaxy实例和获取Blast2go。

Answer 2

要使其与GSEA一起使用，您需要在文件的第一列中将官方人类基因符号作为基因标识符。确保每个基因在排名列表中只出现一次也是一个好主意。另请注意，在预排名模式下，GSEA始终按降序对输入进行排序。

基因集富集分析

2 个答案: