N组的最大交集,具有忽略某些集合的能力(设置压缩)

时间:2015-02-11 02:34:54

标签: algorithm set intersection

假设您有N组未排序的字符,这些组之间有共同的字符。我想从这些集中分解出尽可能多的字符以使它们变小。但是将字符分解出来有一个约束:字符必须在你从N中选择的M个集合的交集中。这有点像无损集合压缩算法。以下示例是有序集,但这是为了便于阅读。不要假定集合将被订购。

一个简单的例子:

S1 = a b c d
S2 = a b c e f
S3 = a f g

答案是仅交叉S1和S2并将因子分解出来:a b c。这样可以减少6个字符,其中任何其他交集组合都会减少。

一个棘手的例子:

S1 = a b c d e f g h i
S2 = j k l m n
S3 = j k l o p q
S4 = j k l
S5 = a b c d

答案是忽略集合S1和S5并将剩余集合S2,S3和S4的交集得到:j k l。

b c d不正确的原因是因为当你将这些字符排除在集合之外时,剩下19个字符,而当你考虑j k和l out时,只剩下18个字符。

是否有一种算法可以比指数时间更快地解决这类问题?您似乎必须测试集合的幂集中的每个集合的交集({},{S1},{S2},{S3},{S1,S2},{S1,S3},{S2 ,S3},{S1,S2,S3}) - 8个交叉点,用于计算是否只有3组。

P.S。这不是一个紧迫的问题,但我认为这是我遇到的一个有趣的问题。

1 个答案:

答案 0 :(得分:2)

如果字母大小不是太大......我会用动态编程来解决这个问题......运行时间应该是O(S * 2 ^ n),S =集合数,n =#of字母

定义DP(i,bitmask)是使用此位掩码在set-0到set-i中的任何子集可以取消的最大字符数

例如,我们现在有3套和5个字母{a,b,c,d,e}

S0 = {a,d,e}, S1 = {b,c,e}, S2 = {a,c,e}

尝试使用0-1位来屏蔽每一组:

S0 = 11001 = 25, S1 = 10110 = 22, S2 = 10101 = 21

总共有2 ^ 5个不同的可能掩码,我们将在计算DP(i,位掩码)时遍历所有掩码

现在用DP(0,x)初始化(即简单地填充x的1位的#) 并且使用跟随转换来填充用于i的DP(i,x)> 0:

DP(i, x) = DP(i-1,x) + { # of 1-bit of x if (Si & x == x); 0 otherwise} Si is the bitmask of the Set i, & is bitwise and operation

答案是所有x的最大DP(S-1,x)

如果有很多解决方案,这种方法可以找到所有可能的解决方案,下面是C ++中解决上述示例的示例代码:

#include<cstdio>
#include<cstdlib>
#include<algorithm>
using namespace std;

int s[3] = {25,22,21};
int dp[5][1<<5] = {0};

int bits(int x){
    int cnt = 0;
    while(x){ cnt += (x&1); x>>=1;}
    return cnt;
}

int main() {
    for(int i=0; i< (1<<5); i++) if((s[0]&i) == i){ dp[0][i] = bits(i); }

    for(int i=1; i<3;i++)
        for(int j=0; j< (1<<5); j++){
            dp[i][j] = dp[i-1][j];
            if((s[i]&j) == j) {dp[i][j] = max(bits(j), dp[i-1][j]+ bits(j));      }
        }


    int x = -1;
    for(int i=0; i< (1<<5); i++){
        x = max(x, dp[2][i]);
        printf("Maximum cancelled: %d,  current DP: %d, bitmask: %d\n", x, dp[2][i], i);
    }
    return 0;
}

每当DP状态的输出等于取消的最大数量时,其位掩码就是相应的解决方案,您可以轻松转换回英文字符,即上例中的{c,e}或{a,e}

<强> EDITED : 要回复以下评论,我尝试在此处逐个回复:

Q1。它仍然呈指数级吗?仅从指数到#字母#的集合转移?

A1。是的。我有这个想法,因为我认为实际上字母大小不会太大......但理论上是的,它仍然是指数时间

Q2。这个问题NP完整吗?

A2。好的,这是有趣的部分,这是我的想法,如果我错了请纠正我,我认为是NP完全。我的想法是将此问题建模为图形问题,请参见下图(裸露我糟糕的mspaint技能) enter image description here

我们得到了一个二分图,并且与原始问题的意义相同,我们现在想要找到最大完整子图 - 一般图中的Clique这是一个众所周知的NP Complete问题。

然后我认为,它是一个 Bipartite Graph!也许二分图中的Clique不是NP Complete,但是感谢Google,我发现了另一个问题Complete Bipartite Graph并专注于第一个问题页面中的属性:

  

给出一个二分图,测试它是否包含完整的二分子图Ki,i对于参数i是NP完全问题。

总而言之,我认为这是NP-Complete

Q3。如何提出这样的DP解决方案?

A3。结合A1。,许多NPC问题实际上有一个伪多项式解,而O(x * 2 ^ y)是一个非常常见的形式,据我所知,一个例子是{{3可以在O(n ^ 2 * 2 ^ n)中求解。另外,如果你问自己,我在考虑这个DP解决方案时也有类似的背包问题的想法......但这与你的问题有点无关......