应用错误收集

这个问题似乎很奇怪，但我需要问这个问题，因为当我将文本作为图像和图形作为图像进行比较时，我正在目睹一个非常有趣的输出。

理想情况下，我正在识别一个工具或算法来比较两个pdf，生成输出将突出它们之间的区别。

pdf中有可能将文本作为图像格式（纸上的遗留文本转换为pdf）。

我们正在迁移那些遗留的pdf，最后我们将与遗留和转换的pdf输出进行比较。

我正在评估一些工具，如Adobe dc pro，i-net pdfc和power pdf等，用于比较两个pdf。

在评估时，我能够看到图形图像在pdf的两侧进行比较（不准确）。在完全忽略图像文本的情况下，所有工具都会一致地产生相同的结果。

但是我对文本作为图像更感兴趣，因为我们处理了更多的遗留文本pdf。

下面是附加的图形图像比较结果，它可以捕捉图像之间的差异。

但是当我比较文本图像时，工具中不会突出显示差异。

据我所知，文本不作为图像图形进行比较，工具完全忽略了比较。我想澄清我的假设是否正确。

其次，我想知道如何比较pdfs中的文本图像以产生差异？。

我在为i-net PDFC的作者所在的公司工作，所以我也会回答你的第一个问题：

你的假设是正确的。 i-net PDFC能够比较图像和形状，但它无法检测某些内容是否完全改变了它的含义，例如。用于绘制字母的线形，或者在您的情况下是必须被识别为文本的图像。将ASCII艺术视为图像也是出于同样的原因而无法工作。即使视觉外观相似，这些案例也总是会被视为差异。

关于第二个问题：对一个或两个文档使用OCR转换工具是解决此问题的常见方法。由于转换后的文件中的字体样式和换行不同，对比页面的简单图像比较不太可行。请注意，大多数OCR应用程序将使用渲染的页面图像进行识别。即使PDF文件中没有图像，这也可能导致识别结果不正确。

i-net Software了解这个一般性问题，目前正在开发OCR模块。它提供了一个选项，仅将识别应用于PDF文件中的图像。