有一项任务是将产品价格分为3组{高,平均,低}价格组。尝试通过使用sklearn包通过K-means实现它。数据为float64类型的pandas Dataframe格式
dfcl
Out[173]:
price
product_option_id
10012|0 372.15
10048|0 11.30
10049|0 12.26
10050|0 6.20
10051|0 5.90
10052|0 9.00
10053|0 11.10
10054|0 9.30
10055|0 4.20
10056|0 5.60
# Convert DataFrame to matrix
mat = dfcl.as_matrix()
# Using sklearn
km = sklearn.cluster.KMeans(n_clusters=3)
km.fit(mat)
# Get cluster assignment labels
labels = km.labels_
# Format results as a DataFrame
results = pd.DataFrame(data=labels, columns=['cluster'], index=dfcl.index)
已经得到了结果,但各组之间似乎是如此不平衡
print('Total features -', len(results))
print('Cluster 0 -',len(results.loc[results['cluster'] == 0]))
print('Cluster 1 -',len(results.loc[results['cluster'] == 1]))
print('Cluster 2 -',len(results.loc[results['cluster'] == 2]))
Total features - 5222
Cluster 0 - 4470
Cluster 1 - 733
Cluster 2 - 19
顺便说一句,当我重新计算拟合数据时,有时会发生集群之间数据高度交换的情况。有什么办法可以解决组之间数据如此不平衡并使群集名称保持静态以重新计算算法的问题?我还尝试使用preprocessing.MinMaxScaler()
规范化数据,但没有帮助。
也许有一些集群算法可以帮助我做我想做的事或其他任何骇客?
Total features - 5222
Cluster 0 - 733
Cluster 1 - 4470
Cluster 2 - 19
答案 0 :(得分:1)
您的数据分配可能已倾斜。 K均值最小化平方误差;它不在乎平衡集群。
此外,k-means不会产生“ low”或“ high”-您需要自己分配此类语义。您不能假定群集2为“高”。
可能值得看一下数据的直方图,然后根据需要定义“低”和“高”的阈值。