我有以下问题:
我有一个表示为顶点v0,v1,...,vN。
的网页列表我有图表g0,g1,...,gM,它们有边缘列表,显示用户在访问网站时访问过的页面,如:
我希望使用这些数据来开发网页访问模式的集群。
我正在寻找: 1.论文,博客等可以帮助我解决这个问题的算法。 2.开源代码,解决这个问题的代码片段。
提前致谢。
注意:
我知道并使用图形聚类算法。我正在寻找特定于此应用程序的东西。
答案 0 :(得分:1)
看起来您的数据实际上包括用户,网页和其他网页之间的超边缘以及时间因素。有一些关于张量因子分解的研究可能会解决这些类型的问题,但最好放弃一个边缘维度和/或时间成分来利用更好的研究方法。
以下是两种可能的方法:
您只能查看网页之间的边缘并分析 使用随机块模型单击链接。 Eric Xing有一些 有趣的工作: http://www.cs.cmu.edu/~epxing/papers/2009/fu_song_xing_icml09.pdf
您只能查看不同用户访问的网页 (抛出网页之间的链接)并使用协作 过滤(http://www2.research.att.com/~volinsky/netflix/)或a 共同聚类方法(谷歌“coclustering”)。