应用错误收集

我有一个数据集，它已被分成数据元素集群，所有数据集都应该代表一个实体。每个数据元素由诸如姓名，电话号码等变量组成，并且已被组合在一起，因为它们被认为代表同一个人。我没有关于它们如何聚类的信息，但我确实掌握了有关每个数据元素的所有可用信息。

我想找到/估计每个群集最具代表性的数据元素。我不熟悉聚类分析，但我发现“质心”或“medoid”的识别来自聚类算法阶段，而不是之后。任何人都可以指出我如何在元素聚集后估计每个集群的master / archetype / paradigm数据元素的方向？是否有任何方法可以确定哪些规则对于在群集发生后决定元素是否包含在群集中最为重要。任何和所有建议表示赞赏！

请注意，这样的对象可能不太好。取决于您的数据。如果someoke给你的是集群{“Apple”，“apple”，“banana”，“Banana”}，你会选择哪个对象？

三种流行的选择：

模式，最常见。
medoid ，最小平均距离的对象
minimax ，最小距离的对象

对抗模式，您需要数量信息。即如果你有10次“苹果”和两次“aple”，你会选择更频繁的。

对于其他两个，您需要一个非常可靠的距离函数（或相似度函数）。如果您的属性属于不同类型，那将很难做到。但是如果我们只有一个拼写错误的字符串，“apple”，“appel”，“aple”，“aaple”那么正确的拼写可能与其他拼写的距离最小。但是如果选择距离很差，结果就会很糟糕。

在群集

1 个答案: