Question

我有3个文件。在那里，他们都有Id个。我想要做的是找到相交的ID（模板是文件1），然后使用模板文件中ID后面的正确ID复制列。< / p>

以下是一个例子：

文件1是模板：

name 123 124 125 128 131 145 156
rdt4 35  12  23  21  36  34  37
gtf2 24  18  18  29  26  12  40
hzt7 40  23  26  25  13  21  28

文件2：

name 123 124 125 126 127 128 131 132 133 145 156
rdt4 F   F   F   T   T   F   T   T   T   F   T
gtf2 F   F   F   T   T   F   T   T   T   F   T
hzt7 F   F   F   T   T   F   T   T   T   F   T

文件3：

name 123_a 123_b 123_c 124_a 124_b 124_c 125_a 125_b 125_c 126_a 126_b 126_c 127_a 127_b 127_c 128_a 128_b 128_c and so on
rdt4 0,087 0,265 0,632 0,220 0,851 0,271 0,436 0,148 0,080 0,899 0,636 0,467 0,508 0,460 0,393 0,689 0,427 0,798
gtf2 0,770 0,971 0,231 0,969 0,494 0,181 0,989 0,155 0,351 0,131 0,204 0,553 0,581 0,138 0,982 0,287 0,702 0,522
hzt7 0,185 0,535 0,093 0,807 0,487 0,786 0,886 0,905 0,966 0,283 0,490 0,190 0,688 0,714 0,577 0,643 0,476 0,738

最终文件应如下所示：

name 123 123 123_b 124 124 124_b 125 125 125_b 128 128 128_b 131 131 131_b 145 145 145_b 156 156 156_b
rdt4 35  F   0,265 12  F   0,851 23  F   0,148 21  F   0,427 36  T         34  F         37  T
gtf2 24  F   0,971 18  F   0,494 18  F   0,155 29  F   0,702 26  T         12  F         40  T
hzt7 40  F   0,535 23  F   0,487 26  F   0,905 25  F   0,476 13  T         21  F         28  T

注意：我跳过输入文件3的所有内容，因为它具有相同数量的ID，如文件2，但在文件3中，每个ID都有3列，我只需要其中一列（在示例列b中）。

到目前为止我尝试了什么：我首先开始只用文件1和文件2做所有事情。我将ID复制到新列表中，然后在文件2中找到这些ID的位置以提取数据。但这似乎非常棘手（至少对我而言）。到目前为止附加工作但问题是存储在列表final中的每个列表都是相同的。如果你可以帮助我，那将是很好的。

到目前为止，这是我的代码：

try:
   Expr_Matrix_1="file1.txt"    
   #Expr_Matrix_1=raw_input('Name file with expression data: ')
   Expr_Matrix_2=open(Expr_Matrix_1)
   Expr_Matrix_3=open(Expr_Matrix_1)
except:
   print 'This is a wrong filename!'
   exit()


try:
   Probe_Detect_1="file2.txt"
   #Probe_Detect_1=raw_input('Name of file with probe detection: ')
   Probe_Detect_2=open(Probe_Detect_1)
   Probe_Detect_3=open(Probe_Detect_1)
except:
   print 'This is a wrong filename!'
   exit()


find_list=list()

for b, line2 in enumerate(Expr_Matrix_2):
    line2 = line2.rstrip()
    line2 = line2.split("\t")
    if b == 0:
        for item in line2:
             find_list.append(item)

find_list=find_list[7:]
find_list2=list()

for i, line in enumerate(Probe_Detect_2):
    line = line.rstrip()
    line = line.split("\t")
    if i == 0:
        for item in find_list:
            find_list2.append(line.index(item))

#print find_list2

index1=8
final=list()        

for b, line2 in enumerate(Expr_Matrix_3):
   line2 = line2.rstrip()
   line2 = line2.split("\t")
   for c, line in enumerate(Probe_Detect_3):
      line = line.rstrip()
      line = line.split("\t")
      if line2[b]==line[c]:
          for item in find_list2:
              if len(line2)<1551:
                  line2.insert(index1, line[item])
                  index1=index1+2
      final.append(line2)

print final[1]

文件1中的第一个ID列是第7列，这就是我使用7进行切片的原因。 1551表示应该复制的行数，但我认为这是一个完全错误的方法。但是，我想告诉你我的尝试！

另一个注意事项：所有文件都以name-column开头，但在此列和第一个ID列之间有一些不应该考虑的列。因为文件1是模板，所以这些列也应该在最终文件中。

解决方案是什么？

将文件中的列添加到另一个文件中的特定位置

0 个答案: