Web导航模式挖掘/网络聚类算法/ Web流量聚类方法

时间:2012-12-17 08:42:18

标签: algorithm machine-learning artificial-intelligence cluster-analysis graph-algorithm

我有以下问题:

我有一个表示为顶点v0,v1,...,vN。

的网页列表

我有图表g0,g1,...,gM,它们有边缘列表,显示用户在访问网站时访问过的页面,如:

  1. g0:(v3,v44); (v44,v5)
  2. g1:(v3,v44); (第44栏,第5条); (v5,v7)
  3. ...
  4. gM:...
  5. 我希望使用这些数据来开发网页访问模式的集群。

    我正在寻找: 1.论文,博客等可以帮助我解决这个问题的算法。 2.开源代码,解决这个问题的代码片段。

    提前致谢。

    注意:

    我知道并使用图形聚类算法。我正在寻找特定于此应用程序的东西。

1 个答案:

答案 0 :(得分:1)

看起来您的数据实际上包括用户,网页和其他网页之间的超边缘以及时间因素。有一些关于张量因子分解的研究可能会解决这些类型的问题,但最好放弃一个边缘维度和/或时间成分来利用更好的研究方法。

以下是两种可能的方法:

  1. 您只能查看网页之间的边缘并分析 使用随机块模型单击链接。 Eric Xing有一些 有趣的工作: http://www.cs.cmu.edu/~epxing/papers/2009/fu_song_xing_icml09.pdf

  2. 您只能查看不同用户访问的网页 (抛出网页之间的链接)并使用协作 过滤(http://www2.research.att.com/~volinsky/netflix/)或a 共同聚类方法(谷歌“coclustering”)。