应用错误收集

在聚类中预测

时间：2011-11-13 14:20:48

标签： r cluster-analysis

在R语言中，聚类中的预测函数就像我们在分类中的方式一样吗？我们可以从聚类图中得出结论，我们从R得到的结果，比较两个聚类的结果？

2 个答案:

答案 0 :(得分：2)

群集不关注预测能力。它只是试图找到似乎相关的对象。这就是为什么聚类结果没有“预测”功能的原因。

然而，在许多情况下，基于群集的学习分类器提供了改进的性能。为此，您基本上训练分类器将对象分配给适当的集群，然后使用仅根据此集群中的示例进行训练的分类器对其进行分类。当群集是纯粹的时，您甚至可以跳过第二步。

原因如下：可能有多种类型使用相同的标签进行分类。在完整数据集上训练分类器可能很难，因为它会尝试同时学习两个集群。将班级拆分为两组，并为每个班级培训单独的分类器，可以使任务变得更加容易。

答案 1 :(得分：1)

许多软件包为集群对象提供predict方法。其中一个示例是clue，cl_predict。

执行此操作时的最佳做法是应用与群集训练数据相同的规则。例如，在Kernel K-Means中，您应该计算数据点和集群中心之间的内核距离。最小值确定群集分配（see here for example）。在光谱聚类中，您应该将数据点不相似性投影到训练数据的特征函数中，将欧氏距离与该空间中的K-Means中心进行比较，最小值应确定您的聚类分配（see here for example）。