应用错误收集

时间：2018-07-14 20:27:44

标签： python-3.x machine-learning scikit-learn cluster-analysis silhouette

我正在对数据进行聚类（尝试多种算法），并尝试评估每种算法所产生的聚类的一致性/完整性。我没有任何基本事实标签，该标签排除了大量用于分析性能的指标。

到目前为止，我一直在使用Silhouette得分以及calinski harabaz得分（来自sklearn）。但是，使用这些分数，如果我从一种算法产生的标签建议至少包含2个聚类，那么我只能比较聚类的完整性-但我的一些算法却提出一个聚类是最可靠的。

因此，如果您没有任何基本事实标签，您如何评估算法提出的聚类效果是否比仅在一个聚类中分配所有数据更好？

答案 0 :(得分：0)

不仅要依靠某种启发式方法，还要有人提出一个非常不同的问题。

群集的关键是要仔细考虑您正在处理的问题。提出数据的正确方法是什么？如何缩放（或不缩放）？如何以量化对您的域有意义的方式来衡量两个记录的相似性。

这与选择正确的算法无关；您的任务是进行数学运算，将您的领域问题与算法的工作联系起来。不要将其视为黑匣子。根据评估步骤选择方法无效：已经为时已晚；您可能已经在预处理中做了一些错误的决定，使用了错误的距离，缩放比例和其他参数。

答案 1 :(得分：0)

如果您正在寻找提到的指标以外的其他非监督指标（为了更确定您的发现），可以尝试以下方法：