我有一组文档D
,我需要将其分区为K
伪等分区。每个分区d_k
都是根据一组单词W_d_k
定义的。换句话说,d_k
是包含W_d_k
中任何单词的所有文档的并集。
是否有一种算法可以帮助我定义K
个单词集以构建K
分区?
注1:我知道这个问题不一定是可以解决的。但我尽量做到最好。
注2:我以这种方式定义效果:最大化覆盖率D'/card(D)
,使D'=Sum_k[Min(card(d_k),card(D)/k)]
注3:每个分区d_k
必须的最大大小为card(D)/K
。
注4:允许有一个属于多个集合的文档,但这意味着由于注释2和3中提到的条件,我将丢失一些覆盖范围。