比较两个数字化传真的PDF文档

时间:2009-12-02 23:24:28

标签: image pdf hash compare fax

在我发布之前,我在董事会上做了一些调查,但我没有看到任何可以捕捉到我希望做的事情。

我们收到大量入站传真(500多页/天)作为单独的文件(每天约100多份文件)。通常情况下,发件人(作为医院)在第一次尝试后几个小时重新发送同一文档。我想将第二次发送标记为“潜在克隆”,以便可以对其进行适当的路由和标记。

我想知道如何在每个到达的传真(PDF / TIFF)上使用某种哈希或ID进行计算和标记,然后在我们的文档数据库中快速扫描以查看它是否唯一。

显然没有办法没有百分之百的确定,但是我认为一个传真与另一个传真相同如果:

  • 相同页数
  • 原件发送后24小时内发送
  • 散列码类似(在阈值内)

但是我对图像比较感到有些困惑。我正在寻找一个阈值哈希码或某种方式来说“每张传真的p4上的图像可能是95%相同”。例如,原始传真的p4可能有偏差,但重新发送的传真的p4是直的。我想通过像Inlite Research的ClearImage Repair这样的东西来运行所有传真页面,首先要拉直,旋转和校准所有页面。

有人做过这样的事吗?

4 个答案:

答案 0 :(得分:2)

难点在于,如果发送的第二个传真是新扫描的结果,这两个文件将具有不同的哈希值

测量文档之间的相似性(似乎合理的重复)可能需要对它们进行OCR,或者以其他方式比较(如果是模糊方式)它们的图像内容(即在解压缩之后)。

修改:建议使用HASH代码进行重复检测

非常初步地,文档的以下属性可以组合在某个散列值中,这些散列值很容易提供合理的重复指示:

这些属性应该为每个页面获得,原因是页面是明确的限制,因此通过在这些限制上“硬”,我们可以允许在页面内容中进行更柔和(更模糊)的测量。
并非所有以下属性都是必需的。这些通常从更容易获得需要更多编程的那些列出。

  • PDF级别的对象特征 (对于每一页!)
    • 大小,即八位字节数
    • 尺寸(宽度和高度;即使使用相同的“字母”格式,实际扫描也会产生不同的图像尺寸
  • OCR文字
  • 图像特征(黑/白比率,......)

关于“哈希”,它应该尽可能宽,理想情况下是一个可变长度哈希,由附加说32位或64位哈希组成,每页一个。

答案 1 :(得分:2)

如果OCR不是一个选项,您可以采用基于图像的方法。一种可能性是对传真图像进行下采样/滤波(以去除高频噪声),然后计算两个下采样图像的像素之间的归一化相关性。显然,有许多更强大的方法,但这可能足以标记两个传真以进行手动检查。特别是如果您提到的图像修复软件可以自动定位和缩放每个页面。

答案 2 :(得分:1)

如果文档主要是文本,那么对它们进行OCR是个好主意。比较文本很简单。

我想,可以进行“距离”计算,但如果传真是第二次颠倒发送怎么办?或者他们扩大它以使其更清晰?

我会尝试解决您可能遇到的文档子集,而不是应用通用算法。你会得到更好的结果,因为它不会在阳光下寻找所有东西。

答案 3 :(得分:0)

我认为OpenCV库是您正在寻找的。如果我没记错,它有图像相似性工具。通过地标识别和频域技术。可以在频域中进行近似散列,而不会对图像中的微小差异造成太大的麻烦。