我已经从NCBI GEO下载了100个基因表达数据集,并将所有可能的注释与每个注释相关联。每个文件由作为基因的行和各种注释的列组成,再由表达数据组成。但是,由于所有这些都来自不同的来源和平台,因此没有统一的标签方式。有些使用基因名称(例如yfgA),而有些使用标准名称(例如b1029),而另一些使用完全不同的命名约定。注释列的组织和命名在文件中也有所不同。
我想将所有文件组合在一起,因此我对每个基因的所有实验都具有基因表达值,但是由于注释无处不在,因此R或python中的传统合并或合并方法似乎不像他们会为我工作。单独执行此操作还需要花费很长时间,因此我想采用某种方式来自动化它(因为我还有另外10,000个文件正在等待执行此操作)。
我想要一个文件,其中行是每个基因,列是可能的不同注释,然后是所有基因表达数据。
任何帮助或建议将不胜感激!