这是一个非常高级别的问题。我正在寻找一种技术或模型,可以为人们进行网络活动,并能够根据相似性生成分数。因此,具有相似流量模式的人,特别是那些在整个集合中不常见的流量模式,会得分高得惊人。
我愿意做研究,我只想指出正确的方向。聚类分析是否能够将具有类似活动的人聚集在一起?
答案 0 :(得分:0)
您可以尝试应用像http://en.wikipedia.org/wiki/Latent_semantic_analysis这样的文档分析模型,其中单词是URL,文档是每个人提取的URL列表。正如文章所说,在构建LSA空间之后“文档和术语向量表示可以使用像k-means这样的传统聚类算法使用类似余弦的相似性度量进行聚类”