合并具有不同组织和不同共享价值的许多文件

时间:2019-05-09 14:26:23

标签: python r file merge annotations

我已经从NCBI GEO下载了100个基因表达数据集,并将所有可能的注释与每个注释相关联。每个文件由作为基因的行和各种注释的列组成,再由表达数据组成。但是,由于所有这些都来自不同的来源和平台,因此没有统一的标签方式。有些使用基因名称(例如yfgA),而有些使用标准名称(例如b1029),而另一些使用完全不同的命名约定。注释列的组织和命名在文件中也有所不同。

我想将所有文件组合在一起,因此我对每个基因的所有实验都具有基因表达值,但是由于注释无处不在,因此R或python中的传统合并或合并方法似乎不像他们会为我工作。单独执行此操作还需要花费很长时间,因此我想采用某种方式来自动化它(因为我还有另外10,000个文件正在等待执行此操作)。

我想要一个文件,其中行是每个基因,列是可能的不同注释,然后是所有基因表达数据。

任何帮助或建议将不胜感激!

0 个答案:

没有答案