应用错误收集

时间：2013-12-02 20:52:47

标签： machine-learning classification cluster-analysis data-mining

我对以下两个问题感到困惑：我有一个15维数据集，应该用于聚类数据集中包含多少类型的攻击。</ p>

1。现在我已经将我的数据集聚为5个集群（5个攻击）。有谁知道我怎么能指出哪个集群是哪个攻击？（如何标记集群不仅仅是“集群1，集群2 ...”）

2。在监督分类中，我们有训练数据集和测试数据集，并且使用从训练数据集构建的分类器进行测试。我的问题是，可以使用相同的方法进行聚类。就像使用聚类算法构建模型一样，然后自动将新实例分类到特定的集群中？这可以实现吗？

答案 0 :(得分：5)

无监督方法如何能够识别命名攻击？

人工分配的名称不在数据中！

对于某些群集算法，您可以自动分配新实例，但通常您不能（不知道群集使用的模型）。在最坏的情况下，一个新的观察甚至可以例如将两个集群合并为一个。那你打算做什么？

如果您想要分类，请使用分类，而不是群集。

群集有着截然不同的心态。如果从分类的角度来看它，你就不会真正理解它。您可以使用群集在数据中查找 unknown ，分类以将已知概括为新数据。

如有必要，您还可以在群集上训练分类器。但是不要盲目地这样做。首先确保群集实际上是有用的。与好的聚类相比，很多更容易提出完全没有意义的聚类结果。在无价值的集群上训练分类器不会产生有意义的输出。