pdf - 查找重复的PDF

查找重复的PDF

时间：2010-10-03 15:12:28

标签： pdf similarity

我正在寻找能够帮助我找到重复PDF的实用程序。问题：我有1000个PDF文件。有些是重复的。由于文件名不同，文件大小差异很小，因此不容易检测到它们。是否有一个实用程序/算法/库可以帮助我找到重复项或显示非常相似（或差异程度）的文件？

5 个答案:

答案 0 :(得分：2)

如果文件是由不同的工具创建的，它们看起来可能相同，但会产生非常不同的结果，因为它们的结构完全不同。我在https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

的博客文章中提出了一些建议

答案 1 :(得分：1)

DiffPDF看起来像是可以帮到你的东西。

答案 2 :(得分：1)

为每个文件创建MD5哈希并将其存储在数据库中。然后，相同的文件将彼此相邻排序，或者您可以快速搜索预先存在的密钥。

答案 3 :(得分：1)

我记得有一个名为pdf2txt的UNIX实用程序（请参阅包poppler-utils）。您可以尝试从文件中提取文本并进行文本差异。

答案 4 :(得分：1)

问题尚未以任何方式解决。我做的是，我使用fdupes http://premium.caribe.net/~adrian2/fdupes.html找到确切的重复项。

但最重要的是，我使用的工作流程可以最大限度地减少重复。进入我系统的每个文档都使用我编写的perl脚本编入索引：http://seegras.discordia.ch/Programs/fileindex将一些名称和md5-sum放入〜/ .fileindex.md5现在我可以更改本地PDF文件的元数据或者其他（并再次运行fileindex），每当我意外地再次下载相同的文件时，我将继续使用原始文件的md5-sum，因此可以检测它是否是重复的。

在http://seegras.discordia.ch/Programs/上还有exif-meta和exif-rename，它有助于设置PDF元数据并根据元数据重命名PDF文件;如果您正确标记所有文件，最终会出现重复的文件名，表明它们可能是不同文件中的同一文档。