应用错误收集

在我尝试从头开始制作东西之前，我想我会问。

以下是我需要回答的问题类型。我们的一位研究人员来找我并说“我们的数据中有多少人有这样的SNP基因分型？”

我们的遗传学数据包含数十个GWAS文件，通常是平面分隔的。每个GWAS文件具有100,000-1,000,000个SNP。 SNP中存在一些重叠，但比我原先想象的要少。

无论如何，我想要做的是拥有某种结构化数据库，将我们的参与者ID链接到特定的GWAS研究，然后将该GWAS研究链接到SNP列表，我可以编写某种查询拉出所有包含数据的ID。在任何时候我都不需要单独的基因型数据，一旦我知道它们在哪里，就更容易拉出我需要的SNP /样品。

这就是我的问题以及我在寻找什么。对于使用大量GWAS数据的人，我相信你已经熟悉了这个问题。是否有针对此类问题的任何内容（免费或付费）？或者，如果我自己需要建立这个方向，你对我想去的方向有所了解吗？

感谢。