识别&删除"复制" PPT文件不是100%相同

时间:2014-12-22 17:55:36

标签: c# python powershell cmd powerpoint

作为即将开展项目的Discovery流程的一部分,我正在尝试找到一种在我们的网络上获取PPT文件的代表性样本的方法。到目前为止,我收集了&组织了我们拥有的所有PPT文件,但是我意识到有大量的文档,所以我需要找到一种方法来减少它。为此,我认为删除所有“重复”文件会很有帮助。

我们公司没有任何形式的网络文件版本控制系统。因此,用户经常创建文件副本以进行小的微小更改。这导致了大量的“重复”文件,没有真正的命名约定等。理想情况下,我能够最好地猜测哪些文件是“重复”并保留最新版本。由于我只需要一个有代表性的样本,我不需要对保存/删除决定100%准确,如果由于(当前有135K文件,我希望最终会丢失一大块文件)也可以。 3-5K)。我不知道如何解决这个问题,因为像http://www.easyduplicatefinder.com/这样的工具似乎寻找真正相同的文档,而不是更细微的区别。

我很感激您提供的任何指导或建议。

以下是其他一些细节:

  • 文件名不符合任何标准惯例
  • 我认为假设许多PPT属性在版本
  • 中保持不变是公平的
  • 文件的版本始终位于同一文件夹中,但其他PPT文件也可能存在于同一文件夹中
  • 我愿意用以下任何语言/技术来解决这个问题:C#,VB,Ruby,Python,IronPython,PowerShell

再次感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

我会这样做:

  • 从每个.ppt文件中提取所有可见的文本字符串
  • 将字符串转储为文本文件,每个.ppt
  • 一个
  • 在所有文本文件对中运行diff(在同一目录中?)以获得最小编辑距离
  • 通过聚类算法运行生成的距离矩阵