对R

时间:2019-11-26 16:46:04

标签: r cluster-analysis correspondence-analysis

我有一个数据集,其中包含一组适用于所有检查的问题。可以这样说

Q1。 “你玩什么运动”

  • A。足球B.篮球C ....等等等等等等

Q2。 “以下哪些因素促使您参加运动?”

  • A。竞争能力B.成就C. ...等等等等等

我要实现4个目标:

  1. 了解哪些运动彼此“接近”
  2. 了解哪些元素彼此“接近”
  3. 了解哪些运动与哪些元素相关
  4. 根据参加者的喜好对参加者进行分类(例如,耐力运动运动员与敏捷性 体育玩家vs.等)

在这样的表上进行K均值聚类是否有效(请注意:实际数据要大得多;该表仅用于演示)?为什么和为什么不?

多重对应分析是更好的方法吗?为什么和为什么不?

football <- c(1,1,1,1,0,0,0,0)
basketball <- c(1,1,0,0,0,0,0,1)
other <- c(1,0,0,0,0,0,0,0)
df<- data.frame(football, basketball, other)
m = as.matrix(df)
t(m) %*% m / colSums(m)

#             football basketball     other
# football   1.0000000        0.5 0.2500000
# basketball 0.6666667        1.0 0.3333333
# other      1.0000000        1.0 1.0000000

0 个答案:

没有答案