应用错误收集

比较两个数字化传真的PDF文档

时间：2009-12-02 23:24:28

标签： image pdf hash compare fax

在我发布之前，我在董事会上做了一些调查，但我没有看到任何可以捕捉到我希望做的事情。

我们收到大量入站传真（500多页/天）作为单独的文件（每天约100多份文件）。通常情况下，发件人（作为医院）在第一次尝试后几个小时重新发送同一文档。我想将第二次发送标记为“潜在克隆”，以便可以对其进行适当的路由和标记。

我想知道如何在每个到达的传真（PDF / TIFF）上使用某种哈希或ID进行计算和标记，然后在我们的文档数据库中快速扫描以查看它是否唯一。

显然没有办法没有百分之百的确定，但是我认为一个传真与另一个传真相同如果：

相同页数
原件发送后24小时内发送
散列码类似（在阈值内）

但是我对图像比较感到有些困惑。我正在寻找一个阈值哈希码或某种方式来说“每张传真的p4上的图像可能是95％相同”。例如，原始传真的p4可能有偏差，但重新发送的传真的p4是直的。我想通过像Inlite Research的ClearImage Repair这样的东西来运行所有传真页面，首先要拉直，旋转和校准所有页面。

有人做过这样的事吗？

4 个答案:

答案 0 :(得分：2)

难点在于，如果发送的第二个传真是新扫描的结果，这两个文件将具有不同的哈希值。

测量文档之间的相似性（似乎合理的重复）可能需要对它们进行OCR，或者以其他方式比较（如果是模糊方式）它们的图像内容（即在解压缩之后）。

修改：建议使用HASH代码进行重复检测

非常初步地，文档的以下属性可以组合在某个散列值中，这些散列值很容易提供合理的重复指示：

这些属性应该为每个页面获得，原因是页面是明确的限制，因此通过在这些限制上“硬”，我们可以允许在页面内容中进行更柔和（更模糊）的测量。
并非所有以下属性都是必需的。这些通常从更容易获得需要更多编程的那些列出。

PDF级别的对象特征（对于每一页！）

大小，即八位字节数

尺寸（宽度和高度;即使使用相同的“字母”格式，实际扫描也会产生不同的图像尺寸

OCR文字

图像特征（黑/白比率，......）

关于“哈希”，它应该尽可能宽，理想情况下是一个可变长度哈希，由附加说32位或64位哈希组成，每页一个。

答案 1 :(得分：2)

如果OCR不是一个选项，您可以采用基于图像的方法。一种可能性是对传真图像进行下采样/滤波（以去除高频噪声），然后计算两个下采样图像的像素之间的归一化相关性。显然，有许多更强大的方法，但这可能足以标记两个传真以进行手动检查。特别是如果您提到的图像修复软件可以自动定位和缩放每个页面。

答案 2 :(得分：1)

如果文档主要是文本，那么对它们进行OCR是个好主意。比较文本很简单。

我想，可以进行“距离”计算，但如果传真是第二次颠倒发送怎么办？或者他们扩大它以使其更清晰？

我会尝试解决您可能遇到的文档子集，而不是应用通用算法。你会得到更好的结果，因为它不会在阳光下寻找所有东西。

答案 3 :(得分：0)

我认为OpenCV库是您正在寻找的。如果我没记错，它有图像相似性工具。通过地标识别和频域技术。可以在频域中进行近似散列，而不会对图像中的微小差异造成太大的麻烦。