ClickStream数据分析

时间:2016-08-29 00:17:02

标签: hadoop analytics clickstream bigdata

我是Bigdata分析的新手,我遇到了一个名为点击流数据分析的有趣场景。我所知道的是点击流数据。我想更多地了解这个和不同的场景,它可以用于业务的最佳利益,以及我们在每个场景的不同步骤中处理数据所需的工具集。

任何帮助将不胜感激。谢谢。

3 个答案:

答案 0 :(得分:12)

什么是点击流数据?

这是用户在上网时留下的虚拟路径。点击流是用户在互联网上的活动记录,包括用户访问的每个网站和每个网站的每个页面,用户在页面或网站上的时间,页面访问的顺序,任何新闻组用户参与甚至用户发送和接收的邮件的电子邮件地址。 ISP和个人网站都能够跟踪用户的点击流。

enter image description here

点击流数据可能包含以下信息:浏览器高度 - 宽度,浏览器名称,浏览器语言,设备类型(桌面,笔记本电脑,平板电脑,移动设备),收入,日期,时间戳,IP地址,网址,购物车中添加的产品数量,删除的产品数量,州,国家,帐单邮政编码,装运邮政编码等。

我们如何从点击流数据中提取更多信息?

在网络分析领域,网站访问者和潜在客户相当于基于主题的数据集中的主题。 考虑以下点击流数据示例,基于主题的数据集按行和列结构(如Excel电子表格) - 数据集的每一行都是唯一的主题,每列都是关于该主题的一些信息。如果要进行基于客户的分析,则需要基于客户的数据集。点击流数据采用最精细的形式,如下图所示。来自同一位访客的点击数字一起进行了颜色编码。 enter image description here

数据科学家从点击流数据中获取更多功能。对于每位访客,我们在访问期间有几次点击,并且在很长一段时间内我们有一系列访问。我们需要一种在访客级别组织数据的方法。像这样:

enter image description here 显然,有许多不同的方法可以聚合数据。对于页面浏览量,收入和视频观看等数字数据,我们可能希望使用平均值或总数等值。通过这样做,我们可以获得有关客户行为的更多信如果您将观察汇总图表,您可以轻松地告诉公司在周五赚取更多收入。

获得基于客户的数据集后,有许多不同的统计模型和数据科学技术可以让您在访客级别访问更深入,更有意义的分析。 Data Science Consulting在利用这些方法方面拥有专业知识和经验:

  • 预测客户流失的风险最高 确定影响该风险的因素(允许您 积极保留客户群)

  • 了解个别客户的品牌知名度

  • 通过个性化相关优惠定位客户

  • 预测哪些客户最有可能转换和 统计确定您的网站如何影响该决定

  • 确定访问者最有可能访问的网站内容类型 回应并理解内容参与如何推动高价值 访问次数

  • 定义不同角色的个人资料和特征 访问者访问您的网站,并了解如何与他们互动。

您可能还对以下Coursera课程感兴趣:

https://www.coursera.org/learn/process-mining?recoOrder=6&utm_medium=email&utm_source=recommendations&utm_campaign=recommendationsEmail~recs_email_2016_06_26_17%3A57

这是关于进程挖掘,我认为这是一个特殊情况下的点击跟踪分析。

答案 1 :(得分:3)

以下内容可以提供大多数公司的高层图片:

  1. 为客户提供REST-ful API以传递事件
  2. 将事件泵送到Kafka
  3. Spark流媒体进行实时计算
  4. Gobblin(或类似)将数据从Kafka泵送到HDFS,然后在HDFS上运行批量M / R作业
  5. 实时和批处理作业都将计算出的指标抽取到德鲁伊(Lambda架构)
  6. 最终用户报告/信息中心的用户界面
  7. Nagios(或类似)用于提醒
  8. 度量聚合框架,用于跟踪堆栈中每个层的事件
  9. 根据我的经验,最好先从相当成熟的工具开始,然后进行端到端的POC,然后再看看你可以玩的其他工具。例如,随着您的管道开始成熟,您甚至可以拥有异步提取API(用scala / akka编写),Kafka流用于内联事件转换,Flink用于实时和批处理作业等。

答案 2 :(得分:0)

也许你可以看看EDX上的火花课程,他们使用点击流示例和火花进行分析和机器学习。