Question

您好我有一些数据如下：

0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.

它来自1999年的kdd杯，它基于darpa集。

我有的文本文件有这样的行和行数据，在matlab中有一个通用的集群工具，你可以通过输入findcluster来使用它，但它只接受.dat文件。

我也不太确定它是否会接受这样的格式。我也不确定为什么转储文件中有这么多的尾随零。

任何人都可以帮助我如何利用文本文档并通过matlab中的fcm聚类方法运行它？实际上需要代码帮助。

Answer 1

FINDCLUSTER只是两个群集算法的GUI界面：FCM和SUBCLUST

首先需要从文件中读取数据，然后查看TEXTSCAN函数。

然后你需要处理非数字属性;或者删除它们或以某种方式转换它们。据我所知，提到的两种算法只支持数字数据。

访问KDD cup数据集的原始网站，找出每个属性的说明。