我在哪里下载基因表达数据?

时间:2012-03-23 04:19:25

标签: download bioinformatics genome

我想下载源自微阵列实验产生的基因表达数据。我不太了解这个主题,但据我所知,行通常对应于基因,列对应于样本。理想情况下,我期待一个基因表达数据矩阵。

我一直在互联网上搜索,虽然看起来有很多地方可以下载这些数据,但当我实际上下载数据时,我没有得到基因表达的矩阵。有人可以告诉我,如果有一个地方或如何以我期望的格式下载基因表达数据?

感谢任何帮助。

2 个答案:

答案 0 :(得分:6)

如果你看一下,例如this entry中的Gene Expression Omnibus,其中一种文件格式为“TXT”,并包含一些类似于您要求的矩阵。

答案 1 :(得分:5)

原则上,微阵列数据可以表示(请原谅双关语)作为矩阵,样本作为列和行作为基因。实际上,为实验的原始数据导出这样的表示会更复杂一些。如果您只是获得预处理数据集,则几乎无法保证原始数据的处理方式与其他实验相当,或者基础原始数据的质量足够高。

您还需要高质量的元数据来从数据矩阵中获取任何含义。样品来源的生物条件和来源是什么?使用的特定阵列上的探针对应于哪些基因? (注意,9890_at是“探针组id”,是特定序列设计的分子探针的唯一标识符,然后需要将其映射到基因,同一基因的不同探针不会给出完全相同的响应。)

因此,除了处理后的数据矩阵之外,公共微阵列数据库还提供了许多附加信息。除了已提及的GEO之外,我建议ArrayExpress我认为它具有更好的搜索界面。

使用微阵列数据的首选工具是用于统计编程语言bioconductorR软件套件。

Bioconductor提供API以下载来自两个存储库的附带元数据的原始数据,请参阅GEO bioc packageArrayExpress bioc package

与大多数bioconductor软件一样,这两个软件包都带有引入软件的出色“小插曲”: GEO bioc vignetteArrayexpress bioc vignette

这些小插曲还应该为您提供获取原始数据并从原始数据中导出“Esets”(表达式集)的示例。此时,您可以访问bioconductor Eset对象中的基因表达矩阵,并且您有一个对象和API来询问必要的元数据。

请注意,有不同类型的微阵列。我建议从Affymetrix数组开始,因为它们可能是最简单的分析API。