我有100个小组,每个小组里面都有一些元素。对于交叉验证,我想制作五个容量,它们的大小尽可能相等。
是否有任何算法用于此目的。
5组和2个箱子的例子:
Group_1: 5
Group_2: 6
Group_3: 2
Group_4: 7
Group_5: 1
两个箱子将是:
G1和G2 - >他们的总和等于11。
G3,G4和G5 - >他们的总和等于10。
答案 0 :(得分:2)
这不是cluster analysis问题(我重写了问题,为你使用更合适的措辞)。聚类分析是结构发现任务。
相反,请看一下计算机科学中的以下两个相关问题:
所有这些看起来都是NP难的,所以你只想使用近似值(如果你有大数据,只有5个例子,你可以轻松地强制所有组合)
答案 1 :(得分:1)
这似乎与set partitioning problem有关,即 NP -hard,但幸运的是承认了许多良好的近似算法和伪多项式时间动态编程算法。您可能希望将这些视为一个起点,因为在这个领域已经完成了很多工作。
希望这有帮助!
答案 2 :(得分:1)
如果您正在寻找具有相同大小约束的聚类算法(分区方法),我建议使用光谱聚类。它将满足您对具有几乎相同尺寸的簇的需求,因为它解决了标准化切割问题,试图找到平衡切割。