我们通过Elasticsearch(2.1.0)和Kibana(4.3.0)分析了Apache日志。 通过在Web服务器上运行的Logstash解析日志并将其发送到Elasticsearch并读取Apache组合日志格式。 一切都很好,但现在我们需要分析更复杂的模式。 我们有字段“purchase_id”的文件,它有整数值(如130012,130016,133552等)。 我们有其他文件,其整数字段“view_id”具有相同的值(如130012,130016,13356等)。
这两个字段永远不会出现在同一个文档中,因为这些字段是从Apache日志中的不同URI中提取的。 我们的目标是计算并可视化“purchase_id”中给定时间范围内的值与“view_id”中的值相比的出现百分比。 例如,假设我们想查看项目130012的当前购买率。在具有字段“purchase_id”的文档中,它可能在最后30秒中出现1000次,在相同的最后30秒中,在具有字段“view_id”的文档中可能出现40000次。 这是显而易见的,因为与接触产品的人数相比,只有少量人购买物品。我需要计算并可视化在时间范围内有1000次对项目130012的purchase_id和对项目130012的40000次view_id然后将1000除以40000并乘以100%以使我在仪表板上可视化2.5%(对于项目130012)。 当然我有很多这样的purchase_id = view_id =(某个数字):int对,所以我需要计算所有这些并显示的百分比,让我们说具有最高百分比的20。 与我们投资的广告相比,这将让我知道最畅销的商品。