有没有一种方法可以将找到的顺序模式用作聚类算法的输入

时间:2019-05-07 14:48:33

标签: python machine-learning cluster-analysis k-means pattern-mining

我正在做一个基于用户在网站上的浏览模式对用户进行分类的项目。

为此,我需要在数据中找到模式,然后对其进行聚类,但是聚类是一个问题,因为我尝试过的聚类算法(k均值,聚类和DBSCAN)不允许将列表作为输入数据。 / p>

我有访问页面的列表,按会话分开。

示例:

data = [[1, 2, 5],
        [2, 4],
        [2, 3],
        [1, 2, 4],
        [1, 3],
        [2, 3],
        [1, 3],
        [7, 8, 9],
        [9, 8, 7],
        [1, 2, 3, 5],
        [1, 2, 3]]

每个列表代表一个包含访问页面的会话。 每个数字代表URL的一部分。

示例:

1 = '/home'
2 = '/blog'
3 = '/about-us'
...

我通过模式挖掘脚本放置了数据。

代码:

import pyfpgrowth # pip install pyfpgrowth

data = [[1, 2, 5],
        [2, 4],
        [2, 3],
        [1, 2, 4],
        [1, 3],
        [2, 3],
        [1, 3],
        [7, 8, 9],
        [9, 8, 7],
        [1, 2, 3, 5],
        [1, 2, 3]]

patterns = pyfpgrowth.find_frequent_patterns(data, 2)
print(patterns)

rules = pyfpgrowth.generate_association_rules(patterns, 0.7)
print(rules)

结果:

# print(patterns)

{(1,): 6,
 (1, 2): 4,
 (1, 2, 3): 2,
 (1, 2, 5): 2,
 (1, 3): 4,
 (1, 5): 2,
 (2,): 7,
 (2, 3): 4,
 (2, 4): 2,
 (2, 5): 2,
 (4,): 2,
 (5,): 2,
 (7,): 2,
 (8,): 2,
 (9,): 2}

# print(rules)

{(1, 5): ((2,), 1.0),
 (2, 5): ((1,), 1.0),
 (4,): ((2,), 1.0),
 (5,): ((1, 2), 1.0)}

根据paper,我要使用的下一步是将找到的模式用作聚类算法的输入(第118页,第4.3章),但是据我所知,聚类算法并不接受列表(长度可变)作为输入。

我已经尝试过了,但是没有用。

代码:

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=4, random_state=0).fit(patterns)

test = [1, 8, 2]

print(kmeans.predict(test))

我应该怎么做才能使k-means算法能够预测冲浪模式所属的组,或者还有另一种更适合此模式的算法?

谢谢!

1 个答案:

答案 0 :(得分:1)

HAC和DBSCAN都可以与列表一起使用。

您只需要自己计算距离矩阵,因为您显然不能在此数据上使用欧几里得距离。代替。例如,您可以考虑使用Jaccard。

不能使用K均值。它需要R ^ d中的连续数据。