假设我们正在分析一个月内的预订模式。我将给出三个示例数据集。我正在寻找任何根据随机性区分这些算法的算法。
data-set 1 data-set2
day bookings day bookings
1 20 3 35
2 11 15 40
3 8 22 11
5 31
6 19 data-set 3
7 7 10 20
9 15 11 37
11 22 12 9
12 23 13 26
13 12
14 10
15 20
16 13
19 22
20 18
21 19
22 4
23 2
24 31
25 23
27 28
28 9
29 13
30 27
肉眼观察这些数据集的day
“值,很明显data-set1 is Random, data-set2 is dispersed and data-set 3 is clustered
我的查询是,对于庞大的数据集,我是否可以在Python中使用任何算法来实现这些结果。
答案 0 :(得分:1)
只需使用任何聚类算法。您只有一个自变量'bookings
',因此计算距离应该不会很昂贵。例如,您可以使用sklearn.cluster.KMeans
。
如果您不想分析需要多少个群集,则可以使用一种算法,而无需事先了解群集的数量,例如sklearn.cluster.DBSCAN
。