我有两个文本文件,包含相似输入的程序执行结果。 当输入相等时,我想找到这两个文件之间的差异。 每个文件可能包含1000次运行的结果,因此我需要找到一个命令,首先检查输入是否相同,然后比较变量的值。 这两个程序始终具有相同数量的输入。 但是,输入的数量可以从一组不同的程序中更改,这意味着我有50个主程序,每个程序包含两个要比较的程序。 例如
//file1.txt
//This is starting at the first line of file1
value in dict:
c: -5493.000000
b: -5493.000000
a: 0.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000
value in dict:
b: -541060888.000000
a: -2147479552.000000
inp_y2: 1571.000000
inp_x2: 541065601.000000
inp_y1: 0.000000
inp_x1: -2147479552.000000
inp_n: 1571.000000
//file2.txt
//This section starts at line 1050
value in dict:
b: -5493.000000
a: 1.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000
value in dict:
b: -541060888.000000
a: -2147479552.000000
inp_y2: 1571.000000
inp_x2: 541065601.000000
inp_y1: 0.000000
inp_x1: -2147479552.000000
inp_n: 1571.000000
所以我希望打印:输入的集合和已更改的变量的值
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000
a=0.000000, a=1.000000
我很高兴通过使用例如numpy来解决bash或python中的任何问题。 注意: 这是一次运行的唯一结果,在一个文件中,我可能有1000个“ dict:中的值”,它代表每次运行的开始。
答案 0 :(得分:1)
我认为您正在寻找类似以下功能的东西:
def dict_compare(d1, d2):
d1_keys = set(d1.keys())
d2_keys = set(d2.keys())
intersect_keys = d1_keys.intersection(d2_keys)
added = d1_keys - d2_keys
removed = d2_keys - d1_keys
modified = {o: (d1[o], d2[o]) for o in intersect_keys if d1[o] != d2[o]}
same = set(o for o in intersect_keys if d1[o] == d2[o])
return added, removed, modified, same
x = {
"c": -5493.000000,
"b": -5493.000000,
"a": 0.000000,
"inp_y2": -5493.000000,
"inp_x2": 0.000000,
"inp_y1": 0.000000,
"inp_x1": 0.000000,
"inp_n": 0.000000,
}
y = {
"b": 1.000000,
"a": 0.000000,
"inp_y2": -5493.000000,
"inp_x2": 0.000000,
"inp_y1": 0.000000,
"inp_x1": 0.000000,
"inp_n": 0.000000,
}
added, removed, modified, same = dict_compare(x, y)
print("added: {}, removed: {}, modified: {}, same: {}".format(added, removed, modified, same))
输出:
>>> python3 test.py
added: {'c'}, removed: set(), modified: {'b': (-5493.0, 1.0)}, same: {'a', 'inp_y1', 'inp_x1', 'inp_n', 'inp_y2', 'inp_x2'}
相关的答案:https://stackoverflow.com/a/18860653/11502612
编辑:
以下解决方案可根据需要处理文件。
file1.txt的内容
c: -5493.000000
b: -5493.000000
a: 0.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000
file2.txt的内容:
b: -5493.000000
a: 1.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000
已更改代码的相关部分:
file_1 = {}
file_2 = {}
with open("file1.txt", "r") as opened_file:
lines = opened_file.readlines()
for line in lines:
file_1[line.split(":")[0]] = float(line.split(":")[1].strip())
with open("file2.txt", "r") as opened_file:
lines = opened_file.readlines()
for line in lines:
file_2[line.split(":")[0]] = float(line.split(":")[1].strip())
added, removed, modified, same = dict_compare(file_1, file_2)
输出:
>>> python3 test.py
added: {'c'}, removed: set(), modified: {'a': (0.0, 1.0)}, same: {'inp_n', 'b', 'inp_x2', 'inp_y1', 'inp_x1', 'inp_y2'}
答案 1 :(得分:0)
过滤部分,对文件进行排序并删除两个文件中的共同点:
comm -3 <(<file1.txt sed -n '/[[:print:]]*: /p' | sort) <(<file2.txt sed -n '/[[:print:]]*: /p' | sort)
它将输出(第二行带有制表符缩进):
a: 0.000000
a: 1.000000
c: -5493.000000
我用sed
过滤行,只打印双点间距为:
的行。然后,将两个文件的输出sort
化。然后使用comm -3
删除两个文件中的公共行。