应用错误收集

我有一个包含1000万行的数据集。每行都有不同的特征 - 比如feature1..feature10每个特征可以用每行的双值表示。我需要将此数据集划分为n个集群，理想情况下n应小于10.我希望所有集群尽可能平衡。我应该能够在平衡期间定义每个特征的重量。例如：一种说法是：将数据集分配到3个集群中，例如每个特征尽可能平衡。其他方式可以是：feature1比feature2占用更多权重，平衡应该处理权重。

我是该领域的新手，我相信已经有现成的解决方案来解决这样的问题。请尽可能详细说明。

平衡分区具有n个加权特征的数据集

0 个答案: