使用单词集的文档分区集合

时间:2014-07-24 19:34:06

标签: algorithm partitioning

我有一组文档D,我需要将其分区为K伪等分区。每个分区d_k都是根据一组单词W_d_k定义的。换句话说,d_k是包含W_d_k中任何单词的所有文档的并集。

是否有一种算法可以帮助我定义K个单词集以构建K分区?

注1:我知道这个问题不一定是可以解决的。但我尽量做到最好。

注2:我以这种方式定义效果:最大化覆盖率D'/card(D),使D'=Sum_k[Min(card(d_k),card(D)/k)]

注3:每个分区d_k 必须的最大大小为card(D)/K

注4:允许有一个属于多个集合的文档,但这意味着由于注释2和3中提到的条件,我将丢失一些覆盖范围。

0 个答案:

没有答案