我被指控分析我公司网站的日志表。此表包含用户在给定会话的整个网站中的单击路径。我的公司希望根据用户的“点击路径”了解/发现趋势。在此过程中,根据年龄/地理位置识别出具有特定“点击路径”的用户组等。
从标题中可以看出,我对BI及其功能完全陌生,所以我想知道:
我目前正在网上阅读书籍以及我找到的其他电子书。所有迹象似乎都表明这可以通过序列聚类实现。虽然我目前失去了确切的实施和调整。因此,如果有人亲身体验过这样的事业,如果你能在这里分享,我会很棒。
干杯!
答案 0 :(得分:2)
您要找的是Association Rule Mining。我对BI并不是特别熟悉,但我建议您查看Weka,其中包含Apriori algorithm及其变体的几种实现。
答案 1 :(得分:2)
这不会帮助您使用现有的日志文件...(但如果您的搜索答案失败,则可以选择其他方式)
Google Analytics是免费的,您可以设置多个自定义变量{age,etc}并查看流量的位置..(您无法看到单个用户的行为......)并不完全是您尝试的时间做但可以自由,可以接近你想要的东西
如果您想要真正好的分析,请查看Omniture(昂贵),但它是构建复杂网站报告的最佳选择。它被用于许多电子商务场景中,跟踪用户如何进入并与网站+进行更多交互〜
有很多网站分析,在“滚动”你自己之前,看看其中的一些,它们可能会帮助你专注于你自己的目标。
答案 2 :(得分:0)
似乎您可以使用neural networks执行该任务。可能是perceptrons。
我对神经网络有一些经验,但我不是专家
我强烈推荐这本书Programming Collective Intelligence: Building Smart Web 2.0 Applications.即使你不懂Python也要查看它。
答案 3 :(得分:0)
首先开始使用开源或商业网站分析软件包(google up for the),因为阅读Web服务器日志文件非常重要
有些允许将数据映射到其他表(您的用户表中包含年龄等),或者将您自己的解决方案与其他数据相结合来映射Web会话日志
除了正常的SQL查询将解决您的分析问题,例如
select user.id
from user, log l1, log l2, log l3
where user.id = l1.userid and l1.type = first step
and user.id = l2.userid and l2.type = next step
and user.id = l3.userid and l3.type = last step
and l1.sessionid = l2.sessionid and l2.sessionid = l3.sessionid
将原始数据加载到BI框架可能不会更容易。将这样的查询结果加载到BI框架中会使scense
根据您的Web应用程序,如果他们有长时间运行的会话ID等,或者更改会话ID,您可能无法识别actaul会话。如果这是一个问题,您需要将Web分析转换为实际的Web服务器代码,以便您可以模拟长时间运行状态并记录该代码