将目录中的文件相互比较,无需重复比较

时间:2011-07-16 22:55:16

标签: python

我想要做的是在N个文件的目录中创建要比较的文件列表。最终目标是比较图像以查找重复项,无论格式如何。 给出文件1.jpg 2.jpg 3.jpg。

使用此

import sys,os,time

def main(argv):
    list1 = os.listdir(argv[0])
    list2 = os.listdir(argv[0])

file_compare_list = []

for pic1 in list1:
    for pic2 in list2:
        file_compare_list.append([pic1,pic2])

print file_compare_list


if __name__ == "__main__":
    main(sys.argv[1:])

我得到一个像这样的列表

[['1.jpg', '1.jpg'], #0
['1.jpg', '2.jpg'],  #1
['1.jpg', '3.jpg'],  #2
['2.jpg', '1.jpg'],  #3
['2.jpg', '2.jpg'],  #4
['2.jpg', '3.jpg'],  #5
['3.jpg', '1.jpg'],  #6
['3.jpg', '2.jpg'],  #7
['3.jpg', '3.jpg']]  #8

现在我可以查看该文件,并确保每个文件都会被比较,但有明显的重复。索引0,4和8很容易处理我可以通过文件名比较它们并摆脱它们。我更关心的是像索引2和6这样的东西,如果我做了什么,那将是重复的。 对此的任何帮助将不胜感激。

4 个答案:

答案 0 :(得分:6)

您需要itertools.combinations。此代码可以准确打印您需要的内容:

import os, itertools

files = os.listdir("/path/to/files")
for file1, file2 in itertools.combinations(files, 2):
  print file1, file2

背后有一些理论:http://en.wikipedia.org/wiki/Combination

答案 1 :(得分:4)

始终有itertools.combinations

import itertools

my_list=['1.jpg','2.jpg','3.jpg']
my_combinations = [x for x in itertools.combinations(my_list,2)]

my_combinations将是:

[('1.jpg', '2.jpg'), ('1.jpg', '3.jpg'), ('2.jpg', '3.jpg')]

答案 2 :(得分:3)

如何提示?

而不是计算比较矩阵P x P的所有非对角线元素:

P = {A, B, C, D, ...}

  + A + B + C + D + ...
A |   | * | * | * | ...
B | * |   | * | * | ...
C | * | * |   | * | ...
D | * | * | * |   | ...
  |   |   |   |   |

你可以计算上三角形:

  + A + B + C + D + ...
A |   | * | * | * | ...
B |   |   | * | * | ...
C |   |   |   | * | ...
D |   |   |   |   | ...
  |   |   |   |   |

或下三角:

  + A + B + C + D + ...
A |   |   |   |   | ...
B | * |   |   |   | ...
C | * | * |   |   | ...
D | * | * | * |   | ...
  |   |   |   |   |

(来自this answer of mine


道歉,如果那太过钝。一些实际的代码:

>>> list = ['a', 'b', 'c', 'd', 'e']
>>> pairs = [[x,y] for i, x in enumerate(list) for y in list[i+1:]]
>>> print pairs
[['a', 'b'], ['a', 'c'], ['a', 'd'], ['a', 'e'], ['b', 'c'], ['b', 'd'], ['b', 'e'], ['c', 'd'], ['c', 'e'], ['d', 'e']]

答案 3 :(得分:2)

查看它的作用并适应您的问题:

[(x, y) for x in a for y in a if x < y]