字符串中子串的出现表现

时间:2010-08-27 09:39:20

标签: algorithm performance string search

我遇到了在另一个字符串中找到子串的所有出现的任务,并且想知道解决这个问题的最佳算法是什么。

出于演示目的,我使用字符串“猫坐在垫子上”并搜索子串“at”的所有出现。这应该最终导致出现数量为3.由于我现在用java编程,我脑子里想到的第一件事是:

    public static void main(String[] args) {

      int count=0;
      String s = "The cat sat on the mat";

      Pattern pattern = Pattern.compile("at");
      Matcher matcher = pattern.matcher(s);
      while(matcher.find()){
          count++;
      }

      System.out.println("Pattern: "+pattern+" Count: "+count);
    }

不知何故,我怀疑这是解决这个问题的最佳方法。因此,如果有人知道最佳(或至少是相当不错的)解决方案应该如何看待......请回答!你可以用任何语言发布你的答案,不一定是java(尽管那很棒:)。

非常感谢!

3 个答案:

答案 0 :(得分:2)

有一些令人印象深刻的子串算法。通常会提到Boyer-Moore算法(http://en.wikipedia.org/wiki/Boyer%E2%80%93Moore_string_search_algorithm),但还有其他选择,例如http://en.wikipedia.org/wiki/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithmhttp://en.wikipedia.org/wiki/Rabin-karp

答案 1 :(得分:1)

没有正则表达式的开销:

public static void main(String[] args) {

    int count = 0;
    String s = "The cat sat on the mat";
    String substring = "at";

    int pos = s.indexOf(substring);
    while (pos > -1) {
        count++;
        pos = s.indexOf(substring, pos + 1);
    }

    System.out.println("Pattern: "+pattern+" Count: "+count);
}

我在维基百科上Boyer–Moore string search algorithm文章的文本中搜索“at”进行了快速测试。他们都找到相同数量的匹配,但在我的机器上执行10.000次采用正则表达式算法1702毫秒,这只是192!

答案 2 :(得分:0)

像往常一样,这取决于。

理论上最好的方法是使用后缀树 - 但它们只对非常大的字符串开始有意义。后缀数组稍微难以使用,但对较小的字符串有意义。 IIRC,zlib deflate算法使用后缀数组来查找重复的子字符串。在任何一种情况下,算法都不是直截了当的,需要相当多的研究来理解和有效实施。

如果你只是担心程序员的工作效率和易于理解的代码,我想你很难打败你写的东西。假设一个相当智能的正则表达式解析器,它可能足够快以便正常使用。