K模式聚类

时间:2018-12-01 17:27:48

标签: machine-learning statistics initialization cluster-analysis data-science

我有一个600万行的数据集,具有混合数据类型。 k原型不可扩展,因此我将所有列都转换为分类列,并在4 M行的随机样本上针对4个簇运行K模式。但是,k模式存在一个初始化问题,每次运行模型时都会产生不同的簇。假设我只运行了一次,然后将其输出进行分析。一次性分析方法完全错误吗?如果是,是否有解决初始化问题的方法?可以通过设置参数或其他方式。任何建议深表感谢。

1 个答案:

答案 0 :(得分:0)

我确定您已经这样做了,但是一定会成功。因为一旦设置了模式变量,它就会从您的数据中选择一组随机的行,并继续进行算法。因此,寻找种子对于可重现的结果很重要。我假设您的代码是这样的:

kmodes(data, modes=4, iter.max = 10, weighted = FALSE, fast = TRUE)

我希望通过不同的群集,您不要暗示群集的数量也在变化。