文本作为图像和图形之间的差异如图像

时间:2017-08-29 14:12:49

标签: image image-processing graphics computer-vision text-comparison

这个问题似乎很奇怪,但我需要问这个问题,因为当我将文本作为图像和图形作为图像进行比较时,我正在目睹一个非常有趣的输出。

理想情况下,我正在识别一个工具或算法来比较两个pdf,生成输出将突出它们之间的区别。

pdf中有可能将文本作为图像格式(纸上的遗留文本转换为pdf)。

我们正在迁移那些遗留的pdf,最后我们将与遗留和转换的pdf输出进行比较。

我正在评估一些工具,如Adobe dc pro,i-net pdfc和power pdf等,用于比较两个pdf。

在评估时,我能够看到图形图像在pdf的两侧进行比较(不准确)。在完全忽略图像文本的情况下,所有工具都会一致地产生相同的结果。

但是我对文本作为图像更感兴趣,因为我们处理了更多的遗留文本pdf。

下面是附加的图形图像比较结果,它可以捕捉图像之间的差异。

graphic image

但是当我比较文本图像时,工具中不会突出显示差异。

text image

据我所知,文本不作为图像图形进行比较,工具完全忽略了比较。我想澄清我的假设是否正确。

其次,我想知道如何比较pdfs中的文本图像以产生差异?。

1 个答案:

答案 0 :(得分:4)

我在为i-net PDFC的作者所在的公司工作,所以我也会回答你的第一个问题:

你的假设是正确的。 i-net PDFC能够比较图像和形状,但它无法检测某些内容是否完全改变了它的含义,例如。用于绘制字母的线形,或者在您的情况下是必须被识别为文本的图像。将ASCII艺术视为图像也是出于同样的原因而无法工作。即使视觉外观相似,这些案例也总是会被视为差异。

关于第二个问题:对一个或两个文档使用OCR转换工具是解决此问题的常见方法。由于转换后的文件中的字体样式和换行不同,对比页面的简单图像比较不太可行。 请注意,大多数OCR应用程序将使用渲染的页面图像进行识别。即使PDF文件中没有图像,这也可能导致识别结果不正确。

i-net Software了解这个一般性问题,目前正在开发OCR模块。它提供了一个选项,仅将识别应用于PDF文件中的图像。