应用错误收集

如果没有OCR，如何检测两个文本图像是否相似？

时间：2019-11-05 05:57:13

标签： python image-processing

我正在尝试将两个图像与用户名进行比较，并检查两者是否相同。我无法使用OCR Tesseract，因为用户名可以包含两种或三种不同语言的字母。因此，Tesseract无法解析图像中的文本。我使用ImageHash来尝试确定图像是否相似。

但是当我尝试比较这张图片时：

然后ImageHash给我的结果是，用户名 Mustang1202 与该图像比 Mustang1203 更相似。

我可以用其他方法检测图像中的相似文本吗？

1 个答案:

答案 0 :(得分：0)

您可能想查看以下内容： https://gist.github.com/duhaime/211365edaddf7ff89c0a36d9f3f7956c 由于您的模式相对来说用途较少，因此可能会起作用，它将返回许多不同的分数，您可能需要对所需的分数进行排序。注意调整大小，它可能会破坏准确性。（顺便说一句，谷歌第一个比赛...不要偷懒）如果您无法通过上面的方法获得所需的结果，那么这里有一个更“现代”的解决方案，卷积自动编码器应该可以解决问题，但是您可能还想尝试其他两种方法。 https://github.com/ankonzoid/artificio/tree/master/image_retrieval