如何搜索相同的文件并在熊猫中进行比较

时间:2017-07-05 02:17:48

标签: python pandas dataframe

我有一些目录和文件

Directory1

file1
file2
file3

Directory2

file1
file2
file3

我想比较每个目录中的每个文件。

我试过

'glob.glob'

'阅读csv'

我想我应该已经应用了

' DIFF' 方法

但我无法弄清楚下一步。 如何比较每个目录中的相同名称文件?

3 个答案:

答案 0 :(得分:1)

如果您可以阅读csv文件并转换为数据框,那么此link可能会有用

答案 1 :(得分:1)

你能详细说明 compare 的意思吗?

为了获取目录中的文件列表,可以使用os.listdir('directory_path'),然后可以遍历列表并将其与参考文件进行比较。 此外,这个link告诉您如何比较pandas中两个数据帧的内容。

答案 2 :(得分:1)

您可以在dict中生成文件内容的md5校验和,并搜索等于校验和。

import glob
import hashlib

example = dict(('%s' % _, hashlib.md5(open('%s' % _, 'rb').read()).hexdigest()) for _ in glob.glob('*'))

{'file1': 'b026324c6904b2a9cb4b88d6d61c81d1', 'file2': '26ab0db90d72e28ad0ba1e22ee510510', 'file3': '26ab0db90d72e28ad0ba1e22ee510510', 'file4': '48a24b70a0b376535542b996af517398'}