Python,用于频繁模式的Web日志数据挖掘

时间:2010-05-27 22:46:01

标签: python data-mining

我需要开发一个用于Web日志数据挖掘的工具。

在特定用户会话中请求的许多网址序列(从网络应用程序日志中检索),我需要弄清楚网站用户的使用模式和群组(群集)。

我是Data Mining的新手,现在正在检查Google。 找到一些有用的信息,即查询Frequent Pattern Mining in Web Log Data似乎指向几乎完全相似的研究。

所以我的问题是:

  1. 是否有任何基于python的工具可以满足我的需要或者至少相似?
  2. Orange toolkit可以提供任何帮助吗?
  3. 可以阅读这本书 Programming Collective Intelligence吗?
  4. 谷歌的内容,阅读内容,使用哪种相对简单的算法?
  5. 我的时间非常有限(到一周左右),所以任何帮助都会非常珍贵。我需要的是指出我正确的方向和如何在最短的时间内完成任务的建议。

    提前致谢!

2 个答案:

答案 0 :(得分:3)

1& 2:Orange有一个频繁的模式挖掘模块。它还支持群集。

3.我刚检查了书的内容。频繁模式挖掘没有章节。无论如何,对于数据挖掘的初学者来说,它通常是一本好书。您将发现帮助您精确定义问题非常有用。

4.您需要了解群集的输入和输出,频繁模式挖掘/关联规则挖掘。所以google这些算法,或者找一本好的数据挖掘教科书来阅读。

答案 1 :(得分:1)

Pattern模块可能正是您要找的。 http://www.clips.ua.ac.be/pages/pattern