我想用R语言(编码)对我的数据(kmeans或hclust)进行聚类。我的数据是序数的,这意味着数据是李克特量表来衡量成本升级的原因(我有41个原因“变量”)从1到5,这1对5个主要影响没有影响(我有大约160个观察“谁对原因进行排名”)...如何基于观察对41原因进行聚类的任何帮助...我是否必须在聚类之前将比例转换为百分比或z得分或任何有帮助的事情.... .. 我真的需要你的帮助!!这是用https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing
播放的数据我想根据观察中出现的相似性对变量(列)进行聚类...我遵循statmethods.net/advstats/cluster.html中的代码;但是我不能根据观察中发生的相似性来对变量(列)进行聚类,并且我也遵循mattpeeples.net/kmeans.html#help中的工作。但我不知道为什么他将数据转换为百分比,然后将Z-score标准化。
答案 0 :(得分:3)
我不清楚你是想根据变量的相似性对行(观察)进行聚类,还是根据观察中出现的相似性对变量(列)进行聚类?
无论如何,请参阅包 cluster 。这是所有R安装附带的推荐软件包。
阅读?daisy
,了解有序数据的详细信息。此度量标准可用于agnes
(用于分层聚类)或pam
(用于分区medoids,更强大的 k -means版本)等功能。
默认情况下,这些会聚集行/观察。如果要对列(变量)进行聚类,只需使用t()
转置数据对象。虽然这可能会使数据变得混乱,具体取决于您的存储方式。
答案 1 :(得分:0)
将数据转换为百分比称为数据规范化,因此所有变量都在0 - 1范围内。
如果数据未规范化,则存在偏向具有较大值的维度的风险