我正在尝试分析这样的旅游数据:
@DATA
2013-1-01,01,1,0,1,3,3,329.2172000000005
2013-1-01,01,1,0,1,3,4,1399.7826299999915
2013-1-01,01,1,1,2,3,2,10.50964
最后一个属性是满足所有其他条件的旅客人数(酒店,特定城市,特定夜晚......)
我正在尝试创建游客集群来分割数据并获得有意义的见解,我对机器学习有点新意,所以我在这里苦苦挣扎。经过一些研究,我不知道如何分割数据的数量,我看到一个好方法是使用自组织映射来获得集群的数量,然后是K-means或EV。所以我使用WEKA并将SOM应用于数据,但看起来它形成了所有属性(包括最后一个属性)的群集,而不是用于加权。
我认为一种可能的解决方案是为频率属性中的每个单元创建一行数据,但这会使文件太大。有什么想法吗?
答案 0 :(得分:0)
大多数实现都不支持加权。可以这样做,但您需要更改代码。
由于您的上一栏不是整数,因此您不能重复这些行。
将每一行视为一个集群有什么问题?
但你的其他属性似乎是某种类别。这些数据往往非常集中。可以有1个差异,2个差异,所有不同。这对于有意义的聚类来说太粗糙了。
您还有一个时间戳,所以您可能对随时间的变化感兴趣吗?