应用错误收集

我认为结果可以解释：

对于第一对图像，主要＆＃34;攻击＆＃34;在图像上是重新构图，它显着改变了创建dct哈希的频率数据。这是dct哈希方法的一个已知弱点，并在pHash网站上有记录。

＆＃34;相似性＆＃34;第二对图像的结果可能是小文件大小的结果，以及其中一个图像中单个颜色的大块。在我的主观经验中，这些类型的文件经常导致奇怪的相似性。弹出。（品牌图片对我来说有问题）。不幸的是，我无法解释这种意想不到的行为。

使用多种散列方法（如墨西哥帽或径向）和较大的源文件（如果有）可以帮助减少错误匹配＆＃34;率。

<强>更新

我已经尝试过在ImageMagick中新发布的phash功能。它允许您使用命令行调用compare -metric phash image1 image2 diffimage来区分两个图像。

使用此工具，第一组（相似）图像的相似性得分为19.78，而明显不同图像的得分为258.58。该值建议为＆＃34;匹配阈值＆＃34;这个pHash方法包含了颜色信息，与dct哈希不同。