我计算了数据集中存在的所有图像的特征向量。我使用欧几里德距离来计算它们之间的距离,并在每次查询时从数据集中检索前10个相似的图像。设置 “阈值”值对我来说是全新的,请提供一些选择它的例子。 提前谢谢。
答案 0 :(得分:0)
有几种不同难度的答案:
简单:返回距离最小的10张图像。如果查询图像与数据集中的任何内容都不是非常相似,则返回的图像将非常相似,但无论如何它们将是最相似的。无需门槛。
更复杂:让一些人将图像对评为相似或不相似(是/否或0-10比例)。你可以从中找出大多数人会说的欧几里德距离是什么"不相似" (或将得分低于5等)。这是你的经验阈值(但是:对于不同类型的图像,它可能会有所不同 - 我仍然认为你会发现在大多数情况下效果非常好的典型距离)。
更复杂:使用kNN对图像进行聚类。尝试使用许多可能数量的集群;测量平均簇大小,例如作为簇中每个图像的中值(距离(特征向量,簇的质心))。类似地测量簇对之间的距离。这让您了解什么是"关闭"并且"不关闭":但理想情况下,您应该为每个图像使用它所在的群集的大小。