聚类方法是否可以解决这种嘈杂的匹配问题?

时间:2019-03-18 07:18:14

标签: cluster-analysis

假设有四个数据列表,每个数据点的维数为3。每个列表都是通过不同的方法生成的。理想情况下,每个列表中只有一个数据点与另一个列表等效(假设红色数据点)。我们称其为解决方案,其他为伪解决方案。因此,很容易找到一个真正的解决方案。我们甚至不需要整个数据,而只需要两个数据列表。通过比较两个列表中两个数据点的每种可能组合,可以轻松找到解决方案。

enter image description here

不幸的是,所有数据都包含现实世界中的噪声。实际的解决方案在不同的列表中将是不平等的。有时,真正的解决方案从清单中丢失了。更糟糕的是,存在两个令人惊讶地彼此接近的伪解,这使得寻找最接近的数据点毫无用处。

如何在现实世界中找到真实的解决方案?我可以想象,如果两个数据点最接近,而其他三个数据点不是那么接近。选择最后三个。原因可能是他们的邻居人数更多。但是,应该将两个数据点作为邻居有多近?

聚类方法是否可以解决这种嘈杂的匹配问题?

1 个答案:

答案 0 :(得分:0)

否。

聚类需要您已经已经解决了您所有的相似性匹配问题。没有可靠的相似性,聚类将无法产生良好的结果。它不是使您所有问题都消失的神奇成分。