应用错误收集

什么是点击流数据？

这是用户在上网时留下的虚拟路径。点击流是用户在互联网上的活动记录，包括用户访问的每个网站和每个网站的每个页面，用户在页面或网站上的时间，页面访问的顺序，任何新闻组用户参与甚至用户发送和接收的邮件的电子邮件地址。 ISP和个人网站都能够跟踪用户的点击流。

点击流数据可能包含以下信息：浏览器高度 - 宽度，浏览器名称，浏览器语言，设备类型（桌面，笔记本电脑，平板电脑，移动设备），收入，日期，时间戳，IP地址，网址，购物车中添加的产品数量，删除的产品数量，州，国家，帐单邮政编码，装运邮政编码等。

我们如何从点击流数据中提取更多信息？

在网络分析领域，网站访问者和潜在客户相当于基于主题的数据集中的主题。考虑以下点击流数据示例，基于主题的数据集按行和列结构（如Excel电子表格） - 数据集的每一行都是唯一的主题，每列都是关于该主题的一些信息。如果要进行基于客户的分析，则需要基于客户的数据集。点击流数据采用最精细的形式，如下图所示。来自同一位访客的点击数字一起进行了颜色编码。

数据科学家从点击流数据中获取更多功能。对于每位访客，我们在访问期间有几次点击，并且在很长一段时间内我们有一系列访问。我们需要一种在访客级别组织数据的方法。像这样：

显然，有许多不同的方法可以聚合数据。对于页面浏览量，收入和视频观看等数字数据，我们可能希望使用平均值或总数等值。通过这样做，我们可以获得有关客户行为的更多信如果您将观察汇总图表，您可以轻松地告诉公司在周五赚取更多收入。

获得基于客户的数据集后，有许多不同的统计模型和数据科学技术可以让您在访客级别访问更深入，更有意义的分析。 Data Science Consulting在利用这些方法方面拥有专业知识和经验：

预测客户流失的风险最高确定影响该风险的因素（允许您积极保留客户群）
了解个别客户的品牌知名度
通过个性化相关优惠定位客户
预测哪些客户最有可能转换和统计确定您的网站如何影响该决定
确定访问者最有可能访问的网站内容类型回应并理解内容参与如何推动高价值访问次数
定义不同角色的个人资料和特征访问者访问您的网站，并了解如何与他们互动。

您可能还对以下Coursera课程感兴趣：

https://www.coursera.org/learn/process-mining?recoOrder=6&utm_medium=email&utm_source=recommendations&utm_campaign=recommendationsEmail~recs_email_2016_06_26_17%3A57

这是关于进程挖掘，我认为这是一个特殊情况下的点击跟踪分析。

以下内容可以提供大多数公司的高层图片：

为客户提供REST-ful API以传递事件
将事件泵送到Kafka
Spark流媒体进行实时计算
Gobblin（或类似）将数据从Kafka泵送到HDFS，然后在HDFS上运行批量M / R作业
实时和批处理作业都将计算出的指标抽取到德鲁伊（Lambda架构）
最终用户报告/信息中心的用户界面
Nagios（或类似）用于提醒
度量聚合框架，用于跟踪堆栈中每个层的事件

根据我的经验，最好先从相当成熟的工具开始，然后进行端到端的POC，然后再看看你可以玩的其他工具。例如，随着您的管道开始成熟，您甚至可以拥有异步提取API（用scala / akka编写），Kafka流用于内联事件转换，Flink用于实时和批处理作业等。

也许你可以看看EDX上的火花课程，他们使用点击流示例和火花进行分析和机器学习。

ClickStream数据分析

3 个答案: