标签: machine-learning logging logfile pattern-recognition
我有一个日志文件作为文本文档,其中包含许多条目,其条目具有类似的结构:timestamp:日志消息。
示例: 时间戳:我这样做了;时间戳:我做到了;时间戳:x期间发生错误;时间戳:我这样做了;时间戳:错误消息。
对消息进行聚类的好方法是什么,这意味着找出文件中有多少种不同的消息类型并对其进行计数?
示例:51x x期间发生错误; 1717x我做到了。
这应该在不知道以前的模式的情况下起作用。是否有任何工具,或者我需要自己应用一些机器学习集群机制?