作为即将开展项目的Discovery流程的一部分,我正在尝试找到一种在我们的网络上获取PPT文件的代表性样本的方法。到目前为止,我收集了&组织了我们拥有的所有PPT文件,但是我意识到有大量的文档,所以我需要找到一种方法来减少它。为此,我认为删除所有“重复”文件会很有帮助。
我们公司没有任何形式的网络文件版本控制系统。因此,用户经常创建文件副本以进行小的微小更改。这导致了大量的“重复”文件,没有真正的命名约定等。理想情况下,我能够最好地猜测哪些文件是“重复”并保留最新版本。由于我只需要一个有代表性的样本,我不需要对保存/删除决定100%准确,如果由于(当前有135K文件,我希望最终会丢失一大块文件)也可以。 3-5K)。我不知道如何解决这个问题,因为像http://www.easyduplicatefinder.com/这样的工具似乎寻找真正相同的文档,而不是更细微的区别。
我很感激您提供的任何指导或建议。
以下是其他一些细节:
再次感谢您的帮助!
答案 0 :(得分:2)
我会这样做:
diff
(在同一目录中?)以获得最小编辑距离