我有一个情节,其中x是测试a,y是另一个测试b。每个学生都要进行两次测试。每个点代表一个学生" post减去pre"在x和y上得分。如您所见,我为绘图指定了标签,但我想将id导出到绘图中的不同部分。有没有办法做到这一点?
答案 0 :(得分:2)
如果myData
是您的数据集,则可以使用kmeans算法识别每个组:(确保x
和y
居中并相应地进行规范化)
myData <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2),
matrix(rnorm(100, mean = 1, sd = 0.3), ncol = 2))
colnames(myData) <- c("x", "y")
(cl <- kmeans(myData, 2))
plot(myData, col = cl$cluster)
points(cl$centers, col = 1:2, pch = 8, cex = 2)
答案 1 :(得分:0)
添加@RockScience的答案,
也许更好的方法是首先确定群集的数量,而不是将群集的数量分配为2,这样你的概率就会得到确切的人群,而不是将整个群体划分为2簇。
有关如何查找群集数量的链接: find the number of clusters
答案 2 :(得分:0)
为什么不按阈值选择?
您对特定范围内的学生感兴趣。
那么为什么不规范化范围,并选择0