旋转后按字典顺序排列的最小字符串

时间:2013-02-21 12:59:51

标签: c++ string algorithm lexicographic

我正在尝试解决this problem in spoj

我需要找到给定字符串的旋转次数,这将使其在所有旋转中按字典顺序排列最小。

例如:

原文:ama

第一轮:maa

第二次旋转:aam这是按字典顺序排列的最小旋转,所以答案是2。

这是我的代码:

string s,tmp;
    char ss[100002];
    scanf("%s",ss);
    s=ss;
    tmp=s;
    int i,len=s.size(),ans=0,t=0;
    for(i=0;i<len;i++)
    {
        string x=s.substr(i,len-i)+s.substr(0,i);
        if(x<tmp)
        {
            tmp=x;
            t=ans;
        }
        ans++;
    }

    cout<<t<<endl;

我为此解决方案获得了“超出时间限制”。我不明白可以进行哪些优化。如何提高解决方案的速度?

2 个答案:

答案 0 :(得分:2)

您可以使用修改后的suffix array。我的意思是修改,因为你不能停止在单词结束。

以下是我解决的similar problem的代码(SA是后缀数组):

//719
//Glass Beads
//Misc;String Matching;Suffix Array;Circular
#include <iostream>
#include <iomanip>
#include <cstring>
#include <string>
#include <cmath>
#define MAX 10050
using namespace std;

int RA[MAX], tempRA[MAX];
int SA[MAX], tempSA[MAX];
int C[MAX];                

void suffix_sort(int n, int k) {
    memset(C, 0, sizeof C);        

    for (int i = 0; i < n; i++)        
        C[RA[(i + k)%n]]++;

    int sum = 0;
    for (int i = 0; i < max(256, n); i++) {                     
        int t = C[i]; 
        C[i] = sum; 
        sum += t;
    }

    for (int i = 0; i < n; i++)        
        tempSA[C[RA[(SA[i] + k)%n]]++] = SA[i];

    memcpy(SA, tempSA, n*sizeof(int));
}

void suffix_array(string &s) {             
    int n = s.size();

    for (int i = 0; i < n; i++) 
        RA[i] = s[i];              

    for (int i = 0; i < n; i++) 
        SA[i] = i;

    for (int k = 1; k < n; k *= 2) {     
        suffix_sort(n, k);
        suffix_sort(n, 0);

        int r = tempRA[SA[0]] = 0;
        for (int i = 1; i < n; i++) {
            int s1 = SA[i], s2 = SA[i-1];
            bool equal = true;
            equal &= RA[s1] == RA[s2];
            equal &= RA[(s1+k)%n] == RA[(s2+k)%n];

            tempRA[SA[i]] = equal ? r : ++r;     
        }

        memcpy(RA, tempRA, n*sizeof(int));
    } 
}

int main() {
    int tt; cin >> tt;
    while(tt--) {
        string s; cin >> s;
        suffix_array(s);
        cout << SA[0]+1 << endl;
   }
}

我主要从this book开始实施此实施。有一个更容易编写O(nlog²n)版本,但可能不适合您的情况(n = 10 ^ 5)。这个版本是O(n log n),它不是最有效的算法。维基百科文章列出了一些O(n)算法,但我发现大多数算法在编程竞赛期间都太复杂了。对于大多数问题,这个O(n log n)通常就足够了。

你可以找到一些解释后缀数组概念的幻灯片(来自我提到的书的作者)here

答案 1 :(得分:1)

我知道这件事来得很晚但我偶然发现谷歌搜索了这个算法更快的变种。结果是在github上发现了一个很好的实现:https://gist.github.com/MaskRay/8803371

它使用lyndon分解。这意味着它会重复地将字符串拆分为按字典顺序排列的lyndon单词。 Lyndon单词是(自身)最小旋转(一个)的字符串。以循环方式执行此操作会将字符串的lms作为最后找到的lyndon字。

int lyndon_word(const char *a, int n)
{
  int i = 0, j = 1, k;
  while (j < n) {
    // Invariant: i < j and indices in [0,j) \ i cannot be the first optimum
    for (k = 0; k < n && a[(i+k)%n] == a[(j+k)%n]; k++);
    if (a[(i+k)%n] <= a[(j+k)%n]) {
      // if k < n
      //   foreach p in [j,j+k], s_p > s_{p-(j-i)}
      //   => [j,j+k] are all suboptimal
      //   => indices in [0,j+k+1) \ i are suboptimal
      // else
      //   None of [j,j+k] is the first optimum
      j += k+1;
    } else {
      // foreach p in [i,i+k], s_p > s_{p+(j-i)}
      // => [i,i+k] are all suboptimal
      // => [0,j) and [0,i+k+1) are suboptimal
      // if i+k+1 < j
      //   j < j+1 and indices in [0,j+1) \ j are suboptimal
      // else
      //   i+k+1 < i+k+2 and indices in [0,i+k+2) \ (i+k+1) are suboptimal
      i += k+1;
      if (i < j)
        i = j++;
      else
        j = i+1;
    }
  }
  // j >= n => [0,n) \ i cannot be the first optimum
  return i;
}