如何根据特定日期的小时进行聚类

时间:2014-05-25 06:51:07

标签: r cluster-analysis k-means

我有一个银行抵达人数的记录,每半个小时一个月。

我正在尝试根据"到达"的数量找到不同的群组。我按照当天的尝试,并按照小时(不是特定的一天)尝试。我想根据特定日期的小时来尝试。

一个例子:

  • 周四14:00,周日15:00是一个群体,平均有10000人到达
  • 周一13:00,周一10:00和周二16:00是一个群体,平均有15000人到达。
  • 所有其他人都是另一个群体,平均有2000人到达。

我有一个包含以下列的csv文件:DateDay(1-7),TimeArrivals

到现在为止我用过这个:

km <- kmeans(table, 3, 15)
plot(km)

(我尝试了3个群集) - 此代码聚类。(3x3的矩阵,每3列中有2个的绘图)

有办法吗?

1 个答案:

答案 0 :(得分:0)

k-means和类似算法将在此类数据上产生无意义的结果。

问题是您使用了错误的工具来解决错误数据上的错误问题。

您的数据是:Date, Day(1-7), Time, Arrivals

K-means将尝试最小化差异。但 variance 对此数据集有意义吗?你怎么知道k最有意义?由于Arrivals可能具有这些属性的最大差异,因此它将完全支配您的结果。

您首先要回答的问题是:什么是好结果?然后,考虑将结果可视化的方法,以验证您是否有所作为。当您可视化数据时,请考虑在可视化上手动标记所需结果的方法,这对您来说可能已经足够了。比祈求k-means产生一个有意义的结果更好;因为在这种混合型数据上,它通​​常不能很好地工作。