应用错误收集

我有一组文档D，我需要将其分区为K伪等分区。每个分区d_k都是根据一组单词W_d_k定义的。换句话说，d_k是包含W_d_k中任何单词的所有文档的并集。

是否有一种算法可以帮助我定义K个单词集以构建K分区？

注1：我知道这个问题不一定是可以解决的。但我尽量做到最好。

注2：我以这种方式定义效果：最大化覆盖率D'/card(D)，使D'=Sum_k[Min(card(d_k),card(D)/k)]

注3：每个分区d_k 必须的最大大小为card(D)/K。

注4：允许有一个属于多个集合的文档，但这意味着由于注释2和3中提到的条件，我将丢失一些覆盖范围。