我试图用相同的流程重复相同的结果,我不明白每种情况下的结果都不同。
我描述了我有一个包含192个实例和37个特征的文件的情况,y在所有情况下都选择相同的列并由Median和StdDev进行预处理。它用7个主要组件计算PCA。以下步骤是从该“新”数据集运行k-means算法(k介于2和8之间)。散点图显示k = 5的结果。
我用流量附加了不同的图像。 Image1: original flow
第一个是原始流程(它涂有黄色),我希望在没有其余选项的情况下重复(第二个图像)。
但是,当我尝试这样做时,我看到结果不同(第三张图片)当然颜色并不能确定差异,但是群集是不同的。此外,Slhouette分数对于不同的流程也是不同的。 Image3: results of the different flows
K-means用kmean ++初始化,我有问题是否可以“控制”这个,或者初始化k-means的方法总是随机的。我在其他程序中看到有一个名为seed的选项,用于控制实验可以重复,但我没有看到这个选项或类似的东西。
我想知道是否有可能使用相同的流程获得相同的结果(使用k-means)。
答案 0 :(得分:0)
似乎问题发生是因为k-means小部件中没有设置随机种子。因此,每次重复实验时初始化都不同,并且由于数据的性质,方法会有所不同。您能否向Orange3 issue tracker报告您的问题。