应用错误收集

无监督的群集会将您的数据包划分为K个群组，潜在的攻击数据包会以某种方式突出，因为它们会有不同的功能吗？ Kmeans算法通常会强制您预先指定K，这可能不是最佳的。有一个名为JavaML的库，有一个名为cobweb的聚类方法，它将根据数据生成K个聚类（它根据你的向量计算出要生成多少个K）。

我的另一个想法是，如果unsup群集将数据和攻击数据包分开实际上最终在他们自己的群集中（通常），那么你可以接收这些数据包并从中创建一个分类器（如bayes或其他东西）。这样，您不必每次都可以在所有内容上运行聚类来获取某些聚类，您可以根据您从无监督聚类中创建的模型中的监督学习对传入数据包进行分类。

我在非常大的非结构化文本库中对文档聚类做了类似的事情。

HTH