我正在尝试从KDD 1999杯数据集中收集一些数据
文件的输出如下所示:
0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.
以该格式提供48,000种不同的记录。我已经清理了数据并删除了仅保留数字的文本。输出现在看起来像这样:
我在excel中创建了一个逗号分隔文件,并保存为csv文件,然后在matlab中从csv文件创建了一个数据源,我尝试通过matlab中的fcm工具箱运行它(findcluster输出38个数据类型,预计有38个列)。
然而,群集看起来不像群集,或者它不接受并按我需要的方式工作。有人可以帮助找到群集吗?我是matlab的新手,所以没有任何经验,我也是新的聚类。
方法:
这就是我想要实现的目标:
这就是我得到的:
load kddcup1.dat
plot(kddcup1(:,1),kddcup1(:,2),'o')
[center,U,objFcn] = fcm(kddcup1,2);
Iteration count = 1, obj. fcn = 253224062681230720.000000
Iteration count = 2, obj. fcn = 241493132059137410.000000
Iteration count = 3, obj. fcn = 241484544542298110.000000
Iteration count = 4, obj. fcn = 241439204971005280.000000
Iteration count = 5, obj. fcn = 241090628742523840.000000
Iteration count = 6, obj. fcn = 239363408546874750.000000
Iteration count = 7, obj. fcn = 238580863900727680.000000
Iteration count = 8, obj. fcn = 238346826370420990.000000
Iteration count = 9, obj. fcn = 237617756429912510.000000
Iteration count = 10, obj. fcn = 226364785036628320.000000
Iteration count = 11, obj. fcn = 94590774984961184.000000
Iteration count = 12, obj. fcn = 2220521449216102.500000
Iteration count = 13, obj. fcn = 2220521273191876.200000
Iteration count = 14, obj. fcn = 2220521273191876.700000
Iteration count = 15, obj. fcn = 2220521273191876.700000
figure
plot(objFcn)
title('Objective Function Values')
xlabel('Iteration Count')
ylabel('Objective Function Value')
maxU = max(U);
index1 = find(U(1, :) == maxU);
index2 = find(U(2, :) == maxU);
figure
line(kddcup1(index1, 1), kddcup1(index1, 2), 'linestyle',...
'none','marker', 'o','color','g');
line(kddcup1(index2,1),kddcup1(index2,2),'linestyle',...
'none','marker', 'x','color','r');
hold on
plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)
plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)
答案 0 :(得分:12)
由于您不熟悉机器学习/数据挖掘,因此不应该解决这些高级问题。毕竟,你正在使用的数据被用于比赛(KDD Cup'99),所以不要指望它很容易!
此外,数据用于分类任务(监督学习),其中目标是预测正确的类(错误/良好连接)。您似乎对聚类(无监督学习)感兴趣,这通常更难。
这种数据集需要大量的预处理和巧妙的特征提取。人们通常使用领域知识(网络入侵检测)来从原始数据中获得更好的特征。直接应用像K-means这样的简单算法通常会产生不良结果。
对于初学者,您需要将属性规范化为相同比例:在方法中作为步骤3的一部分计算欧氏距离时,具有239
和486
等值的要素将使用小值0.05
支配其他功能,从而破坏结果。
要记住的另一点是,太多的属性可能是一件坏事(维数的诅咒)。因此,您应该研究特征选择或降维技术。
最后,我建议您熟悉一个更简单的数据集...