对于我的论文,我必须将RCI中的kmeans和mclust整合到UCI存储库的批发客户数据集(440个观测值和8个变量)。不幸的是,我没有R的经验。首先,我删除了Channel和Region变量。用肘法,我发现5个中心应该是正确的。
k.max <- 15
wss <- sapply(1:k.max,
function(k){kmeans(data, k, nstart=50,iter.max = 15)$tot.withinss})
plot(1:k.max, wss,
type="b", pch = 19, frame = FALSE,
xlab="Anzahl Cluster",
ylab="Summe der Quadrate")
所以我有一些问题:我应该缩放数据,还是应该使用Boxplots识别异常值,或者两者都识别?如何从数据集中删除离群值?可视化结果的最佳方法是什么?