Question

我有一个数据集，其中包含一组适用于所有检查的问题。可以这样说

Q1。 “你玩什么运动”

A。足球B.篮球C ....等等等等等等

Q2。 “以下哪些因素促使您参加运动？”

A。竞争能力B.成就C. ...等等等等等

我要实现4个目标：

了解哪些运动彼此“接近”
了解哪些元素彼此“接近”
了解哪些运动与哪些元素相关
根据参加者的喜好对参加者进行分类（例如，耐力运动运动员与敏捷性体育玩家vs.等）

在这样的表上进行K均值聚类是否有效（请注意：实际数据要大得多；该表仅用于演示）？为什么和为什么不？

多重对应分析是更好的方法吗？为什么和为什么不？

football <- c(1,1,1,1,0,0,0,0)
basketball <- c(1,1,0,0,0,0,0,1)
other <- c(1,0,0,0,0,0,0,0)
df<- data.frame(football, basketball, other)
m = as.matrix(df)
t(m) %*% m / colSums(m)

#             football basketball     other
# football   1.0000000        0.5 0.2500000
# basketball 0.6666667        1.0 0.3333333
# other      1.0000000        1.0 1.0000000

对R

0 个答案: