使用后缀数组实现最长公共子串

时间:2014-03-12 17:55:20

标签: c++ arrays suffix-array longest-substring longest-prefix

我使用this program来计算后缀数组和最长公共前缀。

我需要计算两个字符串之间最长的公共子字符串。

为此,我连接字符串A#B,然后使用this algorithm

我有后缀数组sa[]LCP[]数组。

最长的公共子字符串是LCP[]数组的最大值。

为了找到子串,唯一的条件是在常见长度的子串中,在字符串B中第一次出现的那个应该是答案。

为此,我维持LCP []的最大值。如果LCP[curr_index] == max,那么我确保子字符串B的left_index小于之前的left_index值。

然而,这种方法并没有给出正确答案。故障在哪里?

max=-1;
for(int i=1;i<strlen(S)-1;++i)
{
    //checking that sa[i+1] occurs after s[i] or not
    if(lcp[i] >= max && sa[i] < l1 && sa[i+1] >= l1+1 )
    {
        if( max == lcp[i] && sa[i+1] < left_index ) left_index=sa[i+1];

        else if (lcp[i] > ma )
        {
            left_index=sa[i+1];
            max=lcp[i];
        }
    }
    //checking that sa[i+1] occurs after s[i] or not
    else if (lcp[i] >= max && sa[i] >= l1+1 && sa[i+1] < l1 )
    {
        if( max == lcp[i] && sa[i] < left_index) left_index=sa[i];

        else if (lcp[i]>ma)
        {
            left_index=sa[i];
            max=lcp[i];
        }
    }
}

1 个答案:

答案 0 :(得分:1)

AFAIK,这个问题来自编程竞赛,并且在发表社论之前讨论正在进行的竞赛中的编程问题不应该......虽然我在给你一些见解,因为我有错误的答案后缀数组。然后我用后缀自动机给了我接受。

后缀数组在O(nlog^2 n)中有效,而后缀自动机在O(n)中有效。所以我的建议是使用后缀Automaton,你一定会得到接受。 如果你可以编码solution for that problem,你肯定会编码。

在codchef论坛中也发现:

Try this case 
babaazzzzyy 
badyybac 
The suffix array will contain baa... (From 1st string ) , baba.. ( from first string ) , bac ( from second string ) , bad from second string .
So if you are examining consecutive entries of SA then you will find a match at "baba" and "bac" and find the index of "ba" as 7 in second string , even though its actually at index 1 also . 
Its likely that you may output "yy" instead of "ba"

并且还处理约束 ...要在第二个字符串上找到的第一个最常见的子字符串,应写入输出... 会很容易在后缀自动机的情况下。祝你好运!