在字符串缓冲区/段落/文本中查找单词

时间:2016-06-01 20:57:59

标签: algorithm amazon

这是在亚马逊电话采访中提出的 - “你能编写一个程序(用你喜欢的语言C / C ++ /等)来查找大字符串缓冲区中的给定单词吗?即数字出现“

我仍在寻找我应该给面试官的完美答案..我试着写一个线性搜索(char比较的char),显然我被拒绝了。

鉴于电话采访时间为40-45分钟,他/她正在寻找的完美算法是什么?

2 个答案:

答案 0 :(得分:1)

KMP算法是一种流行的字符串匹配算法。

KMP Algorithm

通过char检查char是低效的。如果字符串有1000个字符且关键字有100个字符,则不希望执行不必要的比较。 KMP算法处理可能发生的许多情况,但我想面试官正在寻找以下情况:当你开始(传递1)时,前99个字符匹配,但第100个字符不匹配。现在,对于第2遍,您没有从字符2执行整个比较,而是有足够的信息来推断下一个可能的匹配可以开始的位置。

// C program for implementation of KMP pattern searching 
// algorithm
#include<stdio.h>
#include<string.h>
#include<stdlib.h>

void computeLPSArray(char *pat, int M, int *lps);

void KMPSearch(char *pat, char *txt)
{
int M = strlen(pat);
int N = strlen(txt);

// create lps[] that will hold the longest prefix suffix
// values for pattern
int *lps = (int *)malloc(sizeof(int)*M);
int j  = 0;  // index for pat[]

// Preprocess the pattern (calculate lps[] array)
computeLPSArray(pat, M, lps);

int i = 0;  // index for txt[]
while (i < N)
{
  if (pat[j] == txt[i])
  {
    j++;
    i++;
  }

  if (j == M)
  {
    printf("Found pattern at index %d \n", i-j);
    j = lps[j-1];
  }

  // mismatch after j matches
  else if (i < N && pat[j] != txt[i])
  {
    // Do not match lps[0..lps[j-1]] characters,
    // they will match anyway
    if (j != 0)
     j = lps[j-1];
    else
     i = i+1;
  }
}
free(lps); // to avoid memory leak
}

void computeLPSArray(char *pat, int M, int *lps)
{
int len = 0;  // length of the previous longest prefix suffix
int i;

lps[0] = 0; // lps[0] is always 0
i = 1;

// the loop calculates lps[i] for i = 1 to M-1
while (i < M)
{
   if (pat[i] == pat[len])
   {
     len++;
     lps[i] = len;
     i++;
   }
   else // (pat[i] != pat[len])
   {
     if (len != 0)
     {
       // This is tricky. Consider the example 
       // AAACAAAA and i = 7.
       len = lps[len-1];

       // Also, note that we do not increment i here
     }
     else // if (len == 0)
     {
       lps[i] = 0;
       i++;
     }
   }
}
}

// Driver program to test above function
int main()
{
char *txt = "ABABDABACDABABCABAB";
char *pat = "ABABCABAB";
KMPSearch(pat, txt);
return 0;
}

此代码取自一个教授算法的非常好的网站: Geeks for Geeks KMP

答案 1 :(得分:1)

亚马逊和公司都希望了解Boyer–Moore string search或/和Knuth–Morris–Pratt算法。

如果你想表现出完美的知识,这些都是好的。否则,尝试创造性并写一些相对优雅和高效的东西。

在你写任何东西之前,你有没有问过分隔符?可能是他们可能会简化您的任务,以提供有关字符串缓冲区的一些额外信息。

如果您提前提供足够的信息,正确解释运行时,空间要求和数据容器的选择,即使下面的代码也可以(确实没有)。

int find( std::string & the_word, std::string & text )
{
    std::stringstream ss( text );    // !!! could be really bad idea if 'text' is really big

    std::string word;
    std::unordered_map< std::string, int > umap;
    while( ss >> text ) ++umap[text];   // you have to assume that each word separated by white-spaces.
    return umap[the_word];
}