在我尝试从头开始制作东西之前,我想我会问。
以下是我需要回答的问题类型。我们的一位研究人员来找我并说“我们的数据中有多少人有这样的SNP基因分型?”
我们的遗传学数据包含数十个GWAS文件,通常是平面分隔的。每个GWAS文件具有100,000-1,000,000个SNP。 SNP中存在一些重叠,但比我原先想象的要少。
无论如何,我想要做的是拥有某种结构化数据库,将我们的参与者ID链接到特定的GWAS研究,然后将该GWAS研究链接到SNP列表,我可以编写某种查询拉出所有包含数据的ID。在任何时候我都不需要单独的基因型数据,一旦我知道它们在哪里,就更容易拉出我需要的SNP /样品。
这就是我的问题以及我在寻找什么。对于使用大量GWAS数据的人,我相信你已经熟悉了这个问题。是否有针对此类问题的任何内容(免费或付费)?或者,如果我自己需要建立这个方向,你对我想去的方向有所了解吗?
感谢。