我是机器学习的新手,现在我正在学习k均值聚类。我对此有很多疑问。我的CSV文件有Mall_Customers
CustomerID Genre Age Annual Income (k$) Spending Score (1-100)
0 1 Male 19 15 39
1 2 Male 21 15 81
2 3 Female 20 16 6
3 4 Female 23 16 77
4 5 Female 31 17 40
我想对上述csv文件执行k均值,以预测谁在商场中花了更多钱。这里的功能是AnnualIncome和Spendin得分。因此,我的模型将输出分为二维。如果假设我需要执行2个以上的特征变量,那时候我的模型是否会超过2维?
1>如何对2个以上的特征执行k均值聚类? 2>如果假设我的csv文件中有5个功能字段,如何减少功能数量?
答案 0 :(得分:0)
我将分两部分回答您的问题
如果具有2个以上的特征,则k表示在n维空间中发生聚类,其中n是特征数。每个样本的向量中的维数将发生变化,无需更改算法或方法。
如果要减少可视化功能的数量,可以使用PCA(主成分分析)来实现。这是一种无监督的降维技术,您可以阅读更多内容。
为此,您可以使用python sklearn库。