我看到有必要从大量URL请求(例如,从HTTPD请求日志)中获取统计数据。这个想法是要知道不同类型的请求IE的百分比。将它们聚合到不同的存储桶中。
我知道一种方法是手动定义不同请求的模式。但是,是否有一些现有的工具/算法具有智能的自适应算法来根据URL中常见的前缀进行聚合?
例如,如果日志中的URL是这样的:
/api/docker/a/..
/api/docker/a/..
/api/docker/a/..
... (repeat a lot, all started with /api/docker/a)
/api/docker/b/..
/api/docker/b/..
... (repeat a lot, all started with /api/docker/b)
/api/token
/api/token
然后,我希望智能工具/算法输出如下:
/api/docker/a M
/api/docker/b N
/api/token 2
该工具/算法应能够基于数据本身的统计信息以智能方式进行汇总,无需或只需提供很少的人工输入即可。