应用错误收集

我是机器学习的新手，所以请多多包涵。

我的目标是编写一种经过训练可识别网络日志中异常的ml算法。日志采用csv格式，其中包含以下字段：TIMESTAMP, EVENT CATEGORY, SRC_IP, SRC_PORT, DST_IP, DST_PORT, EVENT COUNT, URL (if any), DOMAIN (if any).我有可用的“已知有效”和“已知无效”日志。

一个异常的例子可能是端口扫描（在短时间内到大量端口的大量连接-可能是连续的端口号？），或者是在比通常情况下更可疑的时间范围内（例如：星期六）。

我对如何进行感到困惑。我的主要问题是我不知道如何“衡量”这些行为。我发现的教科书示例都涉及“有形”（数字）度量，例如虹膜数据集。什么是解决此问题的好方法？您在文献中有什么可以参考的例子吗？（我发现的每篇论文都是一种理论方法！）

是否应该添加一个预处理步骤，在该步骤中我可以按源或目标ip对日志进行分组？

使用ML算法检测网络日志中的异常

0 个答案: