我正在开展一个项目,我希望在网络数据包上实施Unsupervized Learning来监控新的攻击。我计划使用K_Means Clustering。 因此我安装了wireshark以捕获数据包。 请帮我确定可以应用聚类的参数和进一步的方法;并确定它是否是攻击,例如DDoS攻击!
答案 0 :(得分:0)
无监督的群集会将您的数据包划分为K个群组,潜在的攻击数据包会以某种方式突出,因为它们会有不同的功能吗? Kmeans算法通常会强制您预先指定K,这可能不是最佳的。有一个名为JavaML的库,有一个名为cobweb的聚类方法,它将根据数据生成K个聚类(它根据你的向量计算出要生成多少个K)。
我的另一个想法是,如果unsup群集将数据和攻击数据包分开实际上最终在他们自己的群集中(通常),那么你可以接收这些数据包并从中创建一个分类器(如bayes或其他东西)。这样,您不必每次都可以在所有内容上运行聚类来获取某些聚类,您可以根据您从无监督聚类中创建的模型中的监督学习对传入数据包进行分类。
我在非常大的非结构化文本库中对文档聚类做了类似的事情。
HTH