K表示分析KDD杯数据集99

时间:2014-04-04 13:22:28

标签: matlab plot machine-learning k-means

从k中可以得出什么样的知识/推论意味着对KDDcup99数据集进行聚类分析?

我们使用matlab绘制了一些图形,它们看起来像这样:::

实验1:dst_host_count与serror_rate

的关系图

 dst_host_count vs serror_rate

实验2:srv_count与srv_serror_rate

的关系图

srv_count vs srv_serror_rate

实验3:计数与serror_rate

的图表

count vs serror_rate

我刚刚从kddcup数据集中提取了saome功能并绘制了它们.....

面临的主要问题是由于缺乏领域知识我无法确定从这个图形中可以得出什么推论另一个是如果我选择了错误的轴那么应该选择哪个正确的特征呢?

我没有多少时间来完成这件事,所以我不太了解背景 任何有助于解释这些图表的帮助都会有所帮助

使用这些数据和图表可以进行哪种无监督学习?

1 个答案:

答案 0 :(得分:0)

只是为了提供一些领域知识:KDD cup data set包含有关网络连接不同方面的信息。每个样本包含“连接持续时间”,“使用的协议”,“源/目标字节大小'以及描述一个连接连接的许多其他功能。现在,其中一些连接是恶意的。恶意样本有其独特的指纹' (不同特征值的独特组合)将它们与好的特征值区分开来。

  

从k中可以得出什么样的知识/推论意味着对KDDcup99数据集进行聚类分析?

您可以尝试使用k-means群集来初始群集正常连接和错误连接。此外,不良连接本身分为4个主要类别。因此,您可以尝试k = 5,其中一个群集将捕获好的群集,其他4个群集将捕获4个恶意群集。有关详细信息,请查看tasks page的第一部分。

您还可以检查数据集中的某些维度是否具有高相关性。如果是这样,那么您可以使用类似PCA的东西来减少某些尺寸。看看full list of features。在PCA之后,您的数据将具有更简单的表示(具有更少的维度)并且可以提供更好的性能。

  

正确选择的功能应该是什么?

这很难说。目前数据的维度非常高,因此我不认为尝试可视化图形中的2/3维度将为您提供有关选择维度的良好启发式。我建议

  • 使用所有尺寸进行培训和测试模型。这将为您提供最佳表现的衡量标准。
  • 然后尝试一次删除一个维度以查看性能受影响的程度。例如,您删除维度' srv_serror_rate'从您的数据和模型性能出来几乎相同。然后你知道这个维度没有给你任何关于手头问题的重要信息。
  • 重复步骤2,直到找不到任何可以在不损害性能的情况下移除的尺寸。