我有一个大小为2.5 GB的文本文件,其中包含一些标准已知文件的哈希值。我的任务是找到我的文件系统上所有文件的哈希值,并将其与存储在文本文件中的哈希值进行比较。如果找到匹配,我需要在屏幕上打印已知,如果没有找到匹配,那么我需要在屏幕上打印未知。
因此,该任务的方法非常简单,但主要问题是该过程中涉及的文件非常庞大。
有人可以建议如何以优化的方式完成这项任务。
我是否应该将包含哈希值的文本文件导入数据库。如果是,那么请提供一些可能帮助我完成它的链接。
其次,我可以使用什么算法进行搜索以加快流程?
我的首选语言是Python。
答案 0 :(得分:0)
然后使用迭代器函数列出文件。循环内部:
获取循环中当前文件的哈希校验和
遍历每个哈希值。循环内部:
算法?别担心。如果你遍历文件的每一行,那就没问题了。只是不要一次性加载它,并且不要将它加载到数据结构中,例如列表或字典,因为你可能内存不足。