k模式的轮廓和肘部情节

时间:2017-11-06 15:22:40

标签: cluster-analysis

我正在尝试聚类多行(超过200.000),每个行都有150个二进制属性。为此,我已经运行了k模式聚类,现在我正在尝试生成轮廓图和肘部方法,以便知道哪个k值可能是最合适的。

有没有人知道我如何继续计算,同时考虑到数值不是数值?例如,我不知道过程的总成本(通过简单匹配距离测量的元素与其质心之间的距离)是否类似于WSS(在平方误差的簇总和内)。

欢迎任何想法或任何说明性的示例代码。

1 个答案:

答案 0 :(得分:0)

Silhouette可以与任何指标一起使用。

使用例如汉明距离或简洁卡。