Question

假设我们正在分析一个月内的预订模式。我将给出三个示例数据集。我正在寻找任何根据随机性区分这些算法的算法。

data-set 1                    data-set2
day   bookings               day    bookings
1       20                    3      35 
2       11                    15     40
3       8                     22     11                   
5       31
6       19                  data-set 3
7       7                     10      20
9       15                    11      37
11      22                    12      9
12      23                    13      26
13      12
14      10
15      20
16      13
19      22
20      18
21      19
22      4
23      2
24      31
25      23
27      28
28      9 
29      13
30      27

肉眼观察这些数据集的day“值，很明显data-set1 is Random, data-set2 is dispersed and data-set 3 is clustered

我的查询是，对于庞大的数据集，我是否可以在Python中使用任何算法来实现这些结果。

Answer 1

只需使用任何聚类算法。您只有一个自变量'bookings'，因此计算距离应该不会很昂贵。例如，您可以使用sklearn.cluster.KMeans。

如果您不想分析需要多少个群集，则可以使用一种算法，而无需事先了解群集的数量，例如sklearn.cluster.DBSCAN。

Python-如何确定数据点是随机的还是聚集的？

1 个答案: