我正在处理大脑的整个x,y,z MRI坐标中的大量人类基因表达值数据集。由于人类基因组中有大约60,000个基因,研究人员在大约1000个采样样本中寻找每个基因的表达值,我需要一种在数据库中存储大量列的方法。
我目前正在使用一个名为pg的节点模块用于Postgresql with express,我已经设置了3个表中的2个(下面的表1和表3)。但是,对于第二个数据集,60,000大于可在此类DB中使用的列数。我已经考虑过使用每个基因(由探测器ID表示)作为表中的条目,并且每个~1000个样本作为列,但我必须为具有动态分配标识符的列创建名称。此外,将基因用作列和样本作为条目似乎是组织数据的更合理的方式。
键值存储或Mongo等NoSql数据库是否能够为“样本”模式/ JSON对象的属性存储更多“列”(~60,000 - 每个基因的表达式一个)?
可用数据包括:
因此,我希望能够进行的查询是:
此过程的最终目标是能够输入基因的名称并输出每个体素的表达值列表。