您好我有一些数据如下:
0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.
它来自1999年的kdd杯,它基于darpa集。
我有的文本文件有这样的行和行数据,在matlab中有一个通用的集群工具,你可以通过输入findcluster来使用它,但它只接受.dat文件。
我也不太确定它是否会接受这样的格式。我也不确定为什么转储文件中有这么多的尾随零。
任何人都可以帮助我如何利用文本文档并通过matlab中的fcm聚类方法运行它?实际上需要代码帮助。
答案 0 :(得分:2)
FINDCLUSTER只是两个群集算法的GUI界面:FCM和SUBCLUST
首先需要从文件中读取数据,然后查看TEXTSCAN函数。
然后你需要处理非数字属性;或者删除它们或以某种方式转换它们。据我所知,提到的两种算法只支持数字数据。
访问KDD cup数据集的原始网站,找出每个属性的说明。