我对以下两个问题感到困惑: 我有一个15维数据集,应该用于聚类数据集中包含多少类型的攻击。</ p>
1。现在我已经将我的数据集聚为5个集群(5个攻击)。有谁知道我怎么能指出哪个集群是哪个攻击? (如何标记集群不仅仅是“集群1,集群2 ...”)
2。在监督分类中,我们有训练数据集和测试数据集,并且使用从训练数据集构建的分类器进行测试。我的问题是,可以使用相同的方法进行聚类。就像使用聚类算法构建模型一样,然后自动将新实例分类到特定的集群中?这可以实现吗?
答案 0 :(得分:5)
无监督方法如何能够识别命名攻击?
人工分配的名称不在数据中!
对于某些群集算法,您可以自动分配新实例,但通常您不能(不知道群集使用的模型)。在最坏的情况下,一个新的观察甚至可以例如将两个集群合并为一个。那你打算做什么?
如果您想要分类,请使用分类,而不是群集。
群集有着截然不同的心态。如果从分类的角度来看它,你就不会真正理解它。您可以使用群集在数据中查找 unknown ,分类以将已知概括为新数据。
如有必要,您还可以在群集上训练分类器。但是不要盲目地这样做。首先确保群集实际上是有用的。与好的聚类相比,很多更容易提出完全没有意义的聚类结果。在无价值的集群上训练分类器不会产生有意义的输出。