您如何找到随机排列的两个文本文件中未排序行之间的差异?

时间:2019-08-05 10:37:13

标签: python linux bash

我有两个文本文件,包含相似输入的程序执行结果。 当输入相等时,我想找到这两个文件之间的差异。 每个文件可能包含1000次运行的结果,因此我需要找到一个命令,首先检查输入是否相同,然后比较变量的值。 这两个程序始终具有相同数量的输入。 但是,输入的数量可以从一组不同的程序中更改,这意味着我有50个主程序,每个程序包含两个要比较的程序。 例如

//file1.txt
//This is starting at the first line of file1

value in dict:
c: -5493.000000
b: -5493.000000
a: 0.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000

value in dict:
b: -541060888.000000
a: -2147479552.000000
inp_y2: 1571.000000
inp_x2: 541065601.000000
inp_y1: 0.000000
inp_x1: -2147479552.000000
inp_n: 1571.000000


//file2.txt
//This section starts at line 1050

value in dict:
b: -5493.000000
a: 1.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000

value in dict:
b: -541060888.000000
a: -2147479552.000000
inp_y2: 1571.000000
inp_x2: 541065601.000000
inp_y1: 0.000000
inp_x1: -2147479552.000000
inp_n: 1571.000000

所以我希望打印:输入的集合和已更改的变量的值

inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000

a=0.000000, a=1.000000

我很高兴通过使用例如numpy来解决bash或python中的任何问题。 注意: 这是一次运行的唯一结果,在一个文件中,我可能有1000个“ dict:中的值”,它代表每次运行的开始。

2 个答案:

答案 0 :(得分:1)

我认为您正在寻找类似以下功能的东西:

def dict_compare(d1, d2):
    d1_keys = set(d1.keys())
    d2_keys = set(d2.keys())
    intersect_keys = d1_keys.intersection(d2_keys)
    added = d1_keys - d2_keys
    removed = d2_keys - d1_keys
    modified = {o: (d1[o], d2[o]) for o in intersect_keys if d1[o] != d2[o]}
    same = set(o for o in intersect_keys if d1[o] == d2[o])
    return added, removed, modified, same


x = {
"c": -5493.000000,
"b": -5493.000000,
"a": 0.000000,
"inp_y2": -5493.000000,
"inp_x2": 0.000000,
"inp_y1": 0.000000,
"inp_x1": 0.000000,
"inp_n": 0.000000,
}

y = {
"b": 1.000000,
"a": 0.000000,
"inp_y2": -5493.000000,
"inp_x2": 0.000000,
"inp_y1": 0.000000,
"inp_x1": 0.000000,
"inp_n": 0.000000,
}
added, removed, modified, same = dict_compare(x, y)
print("added: {}, removed: {}, modified: {}, same: {}".format(added, removed, modified, same))

输出:

>>> python3 test.py 
added: {'c'}, removed: set(), modified: {'b': (-5493.0, 1.0)}, same: {'a', 'inp_y1', 'inp_x1', 'inp_n', 'inp_y2', 'inp_x2'}

相关的答案:https://stackoverflow.com/a/18860653/11502612

编辑:

以下解决方案可根据需要处理文件。

file1.txt的内容

c: -5493.000000
b: -5493.000000
a: 0.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000

file2.txt的内容:

b: -5493.000000
a: 1.000000
inp_y2: -5493.000000
inp_x2: 0.000000
inp_y1: 0.000000
inp_x1: 0.000000
inp_n: 0.000000

已更改代码的相关部分:

file_1 = {}
file_2 = {}

with open("file1.txt", "r") as opened_file:
    lines = opened_file.readlines()
    for line in lines:
        file_1[line.split(":")[0]] = float(line.split(":")[1].strip())

with open("file2.txt", "r") as opened_file:
    lines = opened_file.readlines()
    for line in lines:
        file_2[line.split(":")[0]] = float(line.split(":")[1].strip())


added, removed, modified, same = dict_compare(file_1, file_2)

输出:

>>> python3 test.py 
added: {'c'}, removed: set(), modified: {'a': (0.0, 1.0)}, same: {'inp_n', 'b', 'inp_x2', 'inp_y1', 'inp_x1', 'inp_y2'}

答案 1 :(得分:0)

过滤部分,对文件进行排序并删除两个文件中的共同点:

comm -3 <(<file1.txt sed -n '/[[:print:]]*: /p' | sort) <(<file2.txt sed -n '/[[:print:]]*: /p' | sort)

它将输出(第二行带有制表符缩进):

a: 0.000000
    a: 1.000000
c: -5493.000000

我用sed过滤行,只打印双点间距为:的行。然后,将两个文件的输出sort化。然后使用comm -3删除两个文件中的公共行。