我不能用橙色的kmeans重现结果

时间:2018-02-12 13:41:49

标签: orange

我试图用相同的流程重复相同的结果,我不明白每种情况下的结果都不同。

我描述了我有一个包含192个实例和37个特征的文件的情况,y在所有情况下都选择相同的列并由Median和StdDev进行预处理。它用7个主要组件计算PCA。以下步骤是从该“新”数据集运行k-means算法(k介于2和8之间)。散点图显示k = 5的结果。

我用流量附加了不同的图像。 Image1: original flow

第一个是原始流程(它涂有黄色),我希望在没有其余选项的情况下重复(第二个图像)。

Image2: flows repeated

但是,当我尝试这样做时,我看到结果不同(第三张图片)当然颜色并不能确定差异,但是群集是不同的。此外,Slhouette分数对于不同的流程也是不同的。 Image3: results of the different flows

K-means用kmean ++初始化,我有问题是否可以“控制”这个,或者初始化k-means的方法总是随机的。我在其他程序中看到有一个名为seed的选项,用于控制实验可以重复,但我没有看到这个选项或类似的东西。

我想知道是否有可能使用相同的流程获得相同的结果(使用k-means)。

1 个答案:

答案 0 :(得分:0)

似乎问题发生是因为k-means小部件中没有设置随机种子。因此,每次重复实验时初始化都不同,并且由于数据的性质,方法会有所不同。您能否向Orange3 issue tracker报告您的问题。