我正在尝试对文档中的某些信息进行OCR。 输入文档可以是某些布局之一,但是所有布局都是已知的。 我将使用CNN来检测适合输入文档的布局。 一旦我知道什么是文档类型,我将使用图像配准将其与蒙版对齐,并且由于我知道蒙版中所需的信息位置,我将在输入图像的这些坐标中使用一些OCR算法来获取我的信息标记。
问题是,一旦我知道文档类型对于从一组相同类型的图像中测量最相似的图像来确保图像配准进行得很好,将非常有用。我看过一些主题,试图找到一种测量该距离的方法,但是由于所有文档都是同一类型,并且非常相似,因此恐怕对图像进行散列并不会精确,并且使用图像配准中匹配的os点数返回我误报。
你们能建议我从一组相似的图像中找到最相似的图像的最佳方法吗? 有没有更聪明的方法来解决我的问题? 我目前正在使用python,opencv和tesseract。