我有一个数据集,其中包含一组适用于所有检查的问题。可以这样说
Q1。 “你玩什么运动”
Q2。 “以下哪些因素促使您参加运动?”
我要实现4个目标:
在这样的表上进行K均值聚类是否有效(请注意:实际数据要大得多;该表仅用于演示)?为什么和为什么不?
多重对应分析是更好的方法吗?为什么和为什么不?
football <- c(1,1,1,1,0,0,0,0)
basketball <- c(1,1,0,0,0,0,0,1)
other <- c(1,0,0,0,0,0,0,0)
df<- data.frame(football, basketball, other)
m = as.matrix(df)
t(m) %*% m / colSums(m)
# football basketball other
# football 1.0000000 0.5 0.2500000
# basketball 0.6666667 1.0 0.3333333
# other 1.0000000 1.0 1.0000000