我是机器学习的新手,所以请多多包涵。
我的目标是编写一种经过训练可识别网络日志中异常的ml算法。日志采用csv格式,其中包含以下字段:TIMESTAMP, EVENT CATEGORY, SRC_IP, SRC_PORT, DST_IP, DST_PORT, EVENT COUNT, URL (if any), DOMAIN (if any).
我有可用的“已知有效”和“已知无效”日志。
一个异常的例子可能是端口扫描(在短时间内到大量端口的大量连接-可能是连续的端口号?),或者是在比通常情况下更可疑的时间范围内(例如:星期六)。
我对如何进行感到困惑。我的主要问题是我不知道如何“衡量”这些行为。我发现的教科书示例都涉及“有形”(数字)度量,例如虹膜数据集。什么是解决此问题的好方法?您在文献中有什么可以参考的例子吗? (我发现的每篇论文都是一种理论方法!)
是否应该添加一个预处理步骤,在该步骤中我可以按源或目标ip对日志进行分组?