准备在R中进行聚类的日期

时间:2018-09-16 15:44:34

标签: scale k-means boxplot outliers mclust

对于我的论文,我必须将RCI中的kmeans和mclust整合到UCI存储库的批发客户数据集(440个观测值和8个变量)。不幸的是,我没有R的经验。首先,我删除了Channel和Region变量。用肘法,我发现5个中心应该是正确的。

k.max <- 15
wss <- sapply(1:k.max, 
function(k){kmeans(data, k, nstart=50,iter.max = 15)$tot.withinss})
plot(1:k.max, wss,
type="b", pch = 19, frame = FALSE, 
xlab="Anzahl  Cluster",
ylab="Summe der Quadrate")

所以我有一些问题:我应该缩放数据,还是应该使用Boxplots识别异常值,或者两者都识别?如何从数据集中删除离群值?可视化结果的最佳方法是什么?

0 个答案:

没有答案