比较两个文件中的特定字段-Python

时间:2014-06-09 11:15:56

标签: python parsing awk compare

我想将两个文件(file1和file2)与不同列进行比较,但前4列共有,输出应该是file1中存在的file2行:

文件1:

132.227.127.170 49163   173.194.40.110  443
132.227.127.170 49164   31.13.86.65 443
132.227.127.170 49165   193.51.224.40   443
132.227.127.170 49166   193.51.224.40   443
132.227.127.170 49167   193.51.224.40   443
......

文件2:

132.227.127.170 49155 17.172.232.150 5223 3 4500.1587 106
132.227.127.170 49155 17.172.232.150 5223 3 8100.3275 106
132.227.127.170 49163 173.194.40.110 443 5 0.405 53
132.227.127.170 49164 31.13.86.65 443 7 0.018600000000000002 53
132.227.127.170 49165 193.51.224.40 443 417 42.5117 32362
132.227.127.170 49166 193.51.224.40 443 34 33.382 1236
132.227.127.170 49167 193.51.224.40 443 8 37.067099999999996 458
132.227.127.170 49168 193.51.224.40 443 5 0.0008 53
132.227.127.170 49169 193.51.224.40 443 5 0.0009 53
132.227.127.170 49170 31.13.86.65 443 937 30.7529 117540
......

输出:

132.227.127.170 49163 173.194.40.110 443 5 0.405 53
132.227.127.170 49164 31.13.86.65 443 7 0.018600000000000002 53
132.227.127.170 49165 193.51.224.40 443 417 42.5117 32362
132.227.127.170 49166 193.51.224.40 443 34 33.382 1236
132.227.127.170 49167 193.51.224.40 443 8 37.067099999999996 458
....

所以我尝试了这个代码,它通常都可以工作,我已经在其他情况下尝试过并且工作得非常好,但是我不知道这次出了什么问题!!

import string 

tstFile1=open("output","w+")
with open('file1') as file1, open('file2') as file2:
    myf=[line.strip().split() for line in file1]
    f1=[line.strip() for line in filter(lambda x: x.strip().split()[0:3] in myf, file2)]
for i in f1:
    tstFile1.write("%s\n" %i)
tstFile1.close()

那你建议我改变什么呢?任何帮助请求 我试图使用AWK命令,但仍然是同样的问题

1 个答案:

答案 0 :(得分:0)

问题是你试图过于花哨。一个步骤太多,所以你很容易错过细节。

file1包含4列,但您只从file2中提取前3列。

如果您更改以下行,您的问题将得到解决:

    f1=[line.strip() for line in filter(lambda x: x.strip().split()[0:4] in myf, file2)]

   f2=[line.strip() for line in filter(lambda x: x.strip().split()[0:4] not in myf, file2)]

将[0:3]更改为[0:4](请记住,元素之间的python索引是

但请分开这个逻辑,这将使调试更多更容易!