c# - 识别＆amp;删除＆＃34;复制＆＃34; PPT文件不是100％相同

作为即将开展项目的Discovery流程的一部分，我正在尝试找到一种在我们的网络上获取PPT文件的代表性样本的方法。到目前为止，我收集了＆amp;组织了我们拥有的所有PPT文件，但是我意识到有大量的文档，所以我需要找到一种方法来减少它。为此，我认为删除所有“重复”文件会很有帮助。

我们公司没有任何形式的网络文件版本控制系统。因此，用户经常创建文件副本以进行小的微小更改。这导致了大量的“重复”文件，没有真正的命名约定等。理想情况下，我能够最好地猜测哪些文件是“重复”并保留最新版本。由于我只需要一个有代表性的样本，我不需要对保存/删除决定100％准确，如果由于（当前有135K文件，我希望最终会丢失一大块文件）也可以。 3-5K）。我不知道如何解决这个问题，因为像http://www.easyduplicatefinder.com/这样的工具似乎寻找真正相同的文档，而不是更细微的区别。

我很感激您提供的任何指导或建议。

以下是其他一些细节：

文件名不符合任何标准惯例
我认为假设许多PPT属性在版本
文件的版本始终位于同一文件夹中，但其他PPT文件也可能存在于同一文件夹中
我愿意用以下任何语言/技术来解决这个问题：C＃，VB，Ruby，Python，IronPython，PowerShell

再次感谢您的帮助！

识别＆amp;删除＆＃34;复制＆＃34; PPT文件不是100％相同

1 个答案: