使用sklearn在Python中初始化参数Gaussian Mixture

时间:2016-11-08 14:50:57

标签: python numpy scikit-learn gaussian mixture

我正在努力用sklearn做高斯混合,但我想我错过了一些东西,因为它肯定不起作用。

我的原始数据如下所示:

Genotype LogRatio  Strength
AB       0.392805  10.625016
AA       1.922468  10.765716
AB       0.22074   10.405445
BB       -0.059783 10.625016

我想用3种成分= 3种基因型(AA | AB | BB)进行高斯混合。 我知道每种基因型的重量,每种基因型的对数比的平均值和每种基因型的强度平均值。

wgts = [0.8,0.19,0.01]  # weight of AA,AB,BB
means = [[-0.5,9],[0.5,9],[1.5,9]] # mean(LogRatio), mean(Strenght) for AA,AB,BB 

我保留LogRatio和Strength列,并创建一个NumPy数组。

datas = [[  0.392805  10.625016]
         [  1.922468  10.765716]
         [  0.22074   10.405445]
         [ -0.059783   9.798655]]

然后我测试了来自sklearn v0.18的混合函数GaussianMixture,并尝试了sklearn v0.17中的函数GaussianMixtureModel(我仍然没有看到差异,也不知道使用哪一个)。

gmm = mixture.GMM(n_components=3) 
OR
gmm = mixture.GaussianMixture(n_components=3)

gmm.fit(datas)

colors = ['r' if i==0 else 'b' if i==1 else 'g' for i in gmm.predict(datas)]
ax = plt.gca()
ax.scatter(datas[:,0], datas[:,1], c=colors, alpha=0.8)
plt.show()

这是我获得的,这是一个很好的结果,但它每次都会改变,因为每次运行时初始参数的计算方式不同

Results of clusterization

我想在gaussianMixture或GMM函数中初始化我的参数,但我不明白我如何合成我的数据:(

1 个答案:

答案 0 :(得分:0)

通过明确播种random_state伪随机数生成器,可以控制结果重现性的随机性。

而不是:

gmm = mixture.GaussianMixture(n_components=3)

做:

gmm = mixture.GaussianMixture(n_components=3, random_state=3)

random_state必须是int:我已将其随机设置为3,但您可以选择任何其他整数。

使用相同的random_state多次运行时,您会得到相同的结果。