Python-如何确定数据点是随机的还是聚集的?

时间:2018-12-19 13:25:42

标签: python statistics spatial

假设我们正在分析一个月内的预订模式。我将给出三个示例数据集。我正在寻找任何根据随机性区分这些算法的算法。

data-set 1                    data-set2
day   bookings               day    bookings
1       20                    3      35 
2       11                    15     40
3       8                     22     11                   
5       31
6       19                  data-set 3
7       7                     10      20
9       15                    11      37
11      22                    12      9
12      23                    13      26
13      12
14      10
15      20
16      13
19      22
20      18
21      19
22      4
23      2
24      31
25      23
27      28
28      9 
29      13
30      27

肉眼观察这些数据集的day“值,很明显data-set1 is Random, data-set2 is dispersed and data-set 3 is clustered

我的查询是,对于庞大的数据集,我是否可以在Python中使用任何算法来实现这些结果。

1 个答案:

答案 0 :(得分:1)

只需使用任何聚类算法。您只有一个自变量'bookings',因此计算距离应该不会很昂贵。例如,您可以使用sklearn.cluster.KMeans

如果您不想分析需要多少个群集,则可以使用一种算法,而无需事先了解群集的数量,例如sklearn.cluster.DBSCAN