应用错误收集

我已经从NCBI GEO下载了100个基因表达数据集，并将所有可能的注释与每个注释相关联。每个文件由作为基因的行和各种注释的列组成，再由表达数据组成。但是，由于所有这些都来自不同的来源和平台，因此没有统一的标签方式。有些使用基因名称（例如yfgA），而有些使用标准名称（例如b1029），而另一些使用完全不同的命名约定。注释列的组织和命名在文件中也有所不同。

我想将所有文件组合在一起，因此我对每个基因的所有实验都具有基因表达值，但是由于注释无处不在，因此R或python中的传统合并或合并方法似乎不像他们会为我工作。单独执行此操作还需要花费很长时间，因此我想采用某种方式来自动化它（因为我还有另外10,000个文件正在等待执行此操作）。

我想要一个文件，其中行是每个基因，列是可能的不同注释，然后是所有基因表达数据。

任何帮助或建议将不胜感激！

合并具有不同组织和不同共享价值的许多文件

0 个答案: