Python中的KMeans-转换Vars后保留样本权重

时间:2019-04-22 18:40:36

标签: python k-means

我的数据帧(df)由布尔值,连续变量和表示记录权重的称为wt_cnt的字段组成。

在进行集群之前,将MinMaxScaler应用于我的数据:

mms = MinMaxScaler()
mms.fit(data)
data_transformed = mms.transform(data)

KMeans例程如下:

sum_of_squared_distances = []
K = range(1,15)
for k in K:
    km = KMeans(n_clusters=k) #init model
    km = km.fit(data_transformed, sample_weight=None) #fit model
    sum_of_squared_distances.append(km.inertia_) #overall SSE 

但是我想从我的第一个df(wt_cnt)中保留我的初始字段,该字段指定了聚类分析的权重。这对我来说很难,因为data_transformed只是一个矩阵,而不是df。关于如何最有效地执行此操作的任何建议?

以下示例:

data = [[2,12669,5]
      ,[2,7057,1]
      ,[2,6353,1]
      ,[1,13265,3]
      ,[2,22615,1]      
      ,[2,9413,1]      
      ,[2,12126,2]      
      ,[2,7579,1]      
      ,[1,5963,1]]
df = pd.DataFrame(data,columns=['Nm','Frsh','wt_cnt'])
mms = MinMaxScaler()
mms.fit(df)
data_transformed = mms.transform(df)
sum_of_squared_distances = []
K = range(1,5)
for k in K:
    km = KMeans(n_clusters=k)
    km = km.fit(data_transformed, sample_weight=None)
    sum_of_squared_distances.append(km.inertia_)
plt.plot(K, sum_of_squared_distances, 'bx-')
plt.xlabel('k')
plt.ylabel('SS dists')
plt.show()

0 个答案:

没有答案