SSAS聚类算法结果随相同输入而变化

时间:2016-04-24 14:00:26

标签: parameters ssas cluster-analysis windows-clustering

我对数据挖掘和统计数据很陌生。

我在Visual Studio中构建了一个数据挖掘模型。我正在使用Microsoft群集算法,我遇到了一些问题。

我修改了一些默认参数,比如将最大输入参数设置为350,将聚类方法设置为不可伸缩的期望最大化(我有80 000行数据)。此外,我已将群集计数设置为0,因此算法将选择最佳算法。

问题来了。我正在使用tempdb,每次重新启动我的电脑时都会刷新(我没有很多可用空间,所以tempdb是该部门的一个不错的选择)。无论如何,当我重新加载相同的数据并构建挖掘结构时,我得到了完全不同的结果。有一次我有10个集群,然后是13个,然后是9个。我还尝试将集群数量强制为13来重现相同的集群,但它们也不同(集群本身的分布和大小不同)。

我的问题是为什么?不是EM确定性的。我理解大小和分布的微小变化,但每次刷新数据库时我都会得到不同的结果。 算法不应该给我几乎相同的结果,而不是非常不同的结果。我做错了吗?

1 个答案:

答案 0 :(得分:1)

EM(高斯混合模型)就像通常初始化的k-means一样 随机

所以不是,它不是确定性的,得到不同的结果是正常的。