应用错误收集

半监督意味着您优化（！）聚类以产生＆＃34;最佳＆＃34;结果在您拥有标签的数据上，并期望它也可以很好地聚集未标记的数据。根据您的数据，这很难发挥作用。例如，使用k-means，您可能会优化k以匹配已知集群的数量，但是尚未知道的集群呢？

如果您只是希望看到Zow，那么您的聚类方法可以正常运行，您不需要进行列车测试拆分。这有助于在优化参数时避免过度拟合（并且在此范围内，对您的实际性能过于乐观）。当不使用方法中的标签时（如在聚类中）并且也没有在参数化中使用标签，那么您可以简单地执行所谓的＆＃34;外部评估＆＃34;。您可以将标签重新添加到数据集中，并评估群集与标签的一致程度。

但要注意，即使他们不同意您的标签，群集也可能很好。例如，您的标签migjt是＆＃34; olympics＆＃34;，但是群集产生了一个群集，用于游泳＆＃34;。它是一个很好的集群，即使它将你提供的标签分开（有人甚至认为它很好因为它会这样做，它会改善你的标签！）。

如果您的所有数据都已标记，请始终更喜欢分类！不要尝试优化聚类以模拟分类。

Training and Test evaluation for Clustering in R

1 个答案: