我有一个银行抵达人数的记录,每半个小时一个月。
我正在尝试根据"到达"的数量找到不同的群组。我按照当天的尝试,并按照小时(不是特定的一天)尝试。我想根据特定日期的小时来尝试。
一个例子:
我有一个包含以下列的csv文件:Date
,Day
(1-7),Time
,Arrivals
到现在为止我用过这个:
km <- kmeans(table, 3, 15)
plot(km)
(我尝试了3个群集) - 此代码聚类对。(3x3的矩阵,每3列中有2个的绘图)
有办法吗?
答案 0 :(得分:0)
k-means和类似算法将在此类数据上产生无意义的结果。
问题是您使用了错误的工具来解决错误数据上的错误问题。
您的数据是:Date, Day(1-7), Time, Arrivals
K-means将尝试最小化差异。但 variance 对此数据集有意义吗?你怎么知道k
最有意义?由于Arrivals
可能具有这些属性的最大差异,因此它将完全支配您的结果。
您首先要回答的问题是:什么是好结果?然后,考虑将结果可视化的方法,以验证您是否有所作为。当您可视化数据时,请考虑在可视化上手动标记所需结果的方法,这对您来说可能已经足够了。比祈求k-means产生一个有意义的结果更好;因为在这种混合型数据上,它通常不能很好地工作。