Question

我有一个看似简单的问题，但现在已经被困在它上面太久了。我想比较两个文件（格式如下所示）

> file1
20  246057  0.28    68363   0   A
20  246058  0.28    68396   T   C
20  246059  0.28    76700   A   G
20  246060  0.28    76771   T   C
20  246061  0.28    76915   0   A

> file2
112879285   R   68303   20
200068921   M   68319   20
200257910   K   68336   20
200192457   W   68363   20
138777928   Y   68396   20

我想将file1第0列和第3列与file2第2列和第3列进行比较，如果它们匹配，我想输出其余信息以匹配两个文件中的行，如下所示：

> desired output
20  246057  0.28    68363   0   A   200192457   W
20  246058  0.28    68396   T   C   138777928   Y

这是我到目前为止的代码，我已经尝试了这方面的几个变体以及这里的许多建议，但我仍然坚持如何从file1获取相应的信息。我尝试的大多数事情导致每次匹配都会重复file1中的最后一行。

#!/usr/bin/python
import csv

data2 = []
output = open("output.txt","w")

with open("file1.txt", "rb") as in_file1, open("file2.txt","rb") as in_file2:
    reader1 = csv.reader((in_file1), delimiter="\t")
    for row1 in reader1:
        y1 = row1[0], row1[3]
        data2.append(tuple(y1))
        y = row1
    reader2 = csv.reader((in_file2), delimiter="\t")
    for row2 in reader2:
        z = row2[-1], row2[2]
        if tuple(z) in data2:
            out = "\t".join(row2)
            output.write(out+"\n")

我正在努力的部分是在解析之后从file1获取输出。所以我目前最终得到了下面的结果，但我也想要来自file1的这些行的相应信息：

> current output
200192457   W   68363   20
138777928   Y   68396   20

非常感谢任何帮助或建议！谢谢！（我使用的是python 2.7）

Answer 1

这是join，awk和cut的一个很好的用例：

$ join -11 -24 file1 file2 | awk '$4 == $9 { }' | cut -d' ' -f1-8

输出：

20 246057 0.28 68363 0 A 200192457 W
20 246058 0.28 68396 T C 138777928 Y

说明：

在第一个（file1）和第四个（file2）字段中加入-11和-24两个文件。
仅过滤第4和第9个字段相等的行（$4 == $9）;打印这些行（{ }）。
从这些行开始只打印第1到第8个字段（-f1-8）。

Answer 2

这是我从头开始写的解决方案：

f1 = file("file1.txt")
f2 = file("file2.txt")
d = {}
while True:
  line = f1.readline()
  if not line:
    break
  c0,c1,c2,c3,c4,c5 = line.split()
  d[(c0,c3)] = (c0,c1,c2,c3,c4,c5)
while True:
  line = f2.readline()
  if not line:
    break
  c0,c1,c2,c3 = line.split()
  if (c3,c2) in d:
    vals = d[(c3,c2)]
    print c3,vals[1],vals[2],vals[3],vals[4],vals[5],c0,c1

它读取第一个文件，并使用dict键将值存储到tuple。然后它读取第二个文件，并检查字典中是否存在tuple密钥。如果是这样，它会打印所有数据。

请注意，您必须记住在程序的最终工作版本中也关闭文件。为简洁起见，我省略了行来关闭文件。

Answer 3

尝试将代码修改为以下内容，实际上您需要存储在file2中获得匹配的row1：

with open("file1.txt", "rb") as in_file1, open("file2.txt","rb") as in_file2:
reader1 = csv.reader((in_file1), delimiter="\t")
for row1 in reader1:
    y1 = row1[0], row1[3]
    reader2 = csv.reader((in_file2), delimiter="\t")
    for row2 in reader2:
        z = row2[-1], row2[2]
        if tuple(z) in [tuple(y1)]:
              out = "\t".join(row1)
              output.write(out+"\n")    
              out = "\t".join(row2)
              output.write(out+"\n")

Python - 比较2个文件中的列并返回合并的输出

3 个答案: