我最近使用DARPA网络流量数据包及其在KDD99中用于入侵检测评估的派生版本。
请原谅我在计算机网络领域的有限领域知识,我只能从DARPA数据包头中获得9个功能。而不是KDD99中使用的41个功能。
我打算继续研究UNB ISCX入侵检测评估数据集。但是,我想从pcap文件中获取KDD99中使用的41个功能并将其保存为CSV格式。有没有快速/简单的方法来实现这一目标?
因为之前已经为KDD99做过,有没有可以为我做这个的库或转换器?如果没有,是否有如何从pcap文件中获取这些功能的指南?
答案 0 :(得分:8)
小心这个数据集。
http://www.kdnuggets.com/news/2007/n18/4i.html
一些摘录:
使用封闭网络,一些专有网络流量生成器和手动注入攻击生成人工数据
在提出的问题中,最重要的似乎是没有进行任何验证来证明DARPA数据集实际上看起来像真正的网络流量。
2003年,Mahoney和Chan建立了一个简单的入侵检测系统,并针对DARPA tcpdump数据运行它。他们发现了许多违规行为,包括 - 由于数据的生成方式 - 所有恶意数据包的TTL分别为126或253,而几乎所有良性数据包的TTL分别为127或254.
DARPA数据集(以及扩展名为KDD Cup '99数据集)从根本上被打破,并且无法从使用它们的任何实验中得出任何结论
我们强烈建议(1)所有研究人员停止使用KDD Cup '99数据集
至于使用的特征提取。 IIRC大多数功能只是解析的 IP / TCP / UDP标头的属性。例如,端口号,IP的最后一个八位字节和一些包标志。
因此,无论如何,这些发现不再反映现实攻击。今天的TCP / IP堆栈比创建数据集时强更强大,其中“ping of death”会立即锁定Windows主机。现在,TCP / IP堆栈的每个开发人员都应该意识到这种格式错误的数据包的风险,并对这些事情进行压力测试。
有了这个,这些功能变得毫无意义。在网络攻击中不再使用错误设置的SYN标志等;这些要复杂得多;并且很可能不再攻击TCP / IP堆栈,而是在下一层上运行的服务。因此,我不打算在使用90年代早期发生的攻击的'99有缺陷的模拟中找出哪些低级数据包标志...