标签: machine-learning
我有一个包含1000万行的数据集。每行都有不同的特征 - 比如feature1..feature10每个特征可以用每行的双值表示。我需要将此数据集划分为n个集群,理想情况下n应小于10.我希望所有集群尽可能平衡。我应该能够在平衡期间定义每个特征的重量。例如:一种说法是:将数据集分配到3个集群中,例如每个特征尽可能平衡。其他方式可以是:feature1比feature2占用更多权重,平衡应该处理权重。
我是该领域的新手,我相信已经有现成的解决方案来解决这样的问题。请尽可能详细说明。