在python中将两个制表符分隔的文本文件合并为一个公共列

时间:2014-02-02 11:04:45

标签: python merge

@ tim-pietzcker我想合并两个共享一个公共列的制表符分隔的文本文件。我有一个'标识符文件'看起来像这样(2列1050行):

  

模块1基因1
   模块1基因2
   ..
   模块x基因y

我还有一个制表符分隔的'目标'看起来像这样的文本文件(36列乘12000行):

  

基因1样品1样品2等
  基因2样本1样本2等
  ..
  基因z样本1样本2等

我想基于基因标识符合并这两个文件,并且具有来自标识符和目标文件的匹配表达式值和模块关联。基本上从标识符文件中获取基因,在目标文件中找到它们,并在一个文件中创建一个模块#,gene#和表达式值的新文件。欢迎您的建议。

谢谢!

1 个答案:

答案 0 :(得分:0)

打开基因描述文件,并加载一个字典,其中key是基因编号,值将是样本描述。

然后打开模块文件,并在其行上循环。对于每一行,在字典中查找相应的基因条目。打印模块,基因,样品描述。

就是这样!如果您需要更多信息,请查看如何读取文件并在python文档中使用字典。