我遇到了在另一个字符串中找到子串的所有出现的任务,并且想知道解决这个问题的最佳算法是什么。
出于演示目的,我使用字符串“猫坐在垫子上”并搜索子串“at”的所有出现。这应该最终导致出现数量为3.由于我现在用java编程,我脑子里想到的第一件事是:
public static void main(String[] args) {
int count=0;
String s = "The cat sat on the mat";
Pattern pattern = Pattern.compile("at");
Matcher matcher = pattern.matcher(s);
while(matcher.find()){
count++;
}
System.out.println("Pattern: "+pattern+" Count: "+count);
}
不知何故,我怀疑这是解决这个问题的最佳方法。因此,如果有人知道最佳(或至少是相当不错的)解决方案应该如何看待......请回答!你可以用任何语言发布你的答案,不一定是java(尽管那很棒:)。
非常感谢!
答案 0 :(得分:2)
有一些令人印象深刻的子串算法。通常会提到Boyer-Moore算法(http://en.wikipedia.org/wiki/Boyer%E2%80%93Moore_string_search_algorithm),但还有其他选择,例如http://en.wikipedia.org/wiki/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm和http://en.wikipedia.org/wiki/Rabin-karp。
答案 1 :(得分:1)
没有正则表达式的开销:
public static void main(String[] args) {
int count = 0;
String s = "The cat sat on the mat";
String substring = "at";
int pos = s.indexOf(substring);
while (pos > -1) {
count++;
pos = s.indexOf(substring, pos + 1);
}
System.out.println("Pattern: "+pattern+" Count: "+count);
}
我在维基百科上Boyer–Moore string search algorithm文章的文本中搜索“at”进行了快速测试。他们都找到相同数量的匹配,但在我的机器上执行10.000次采用正则表达式算法1702毫秒,这只是192!
答案 2 :(得分:0)
像往常一样,这取决于。
理论上最好的方法是使用后缀树 - 但它们只对非常大的字符串开始有意义。后缀数组稍微难以使用,但对较小的字符串有意义。 IIRC,zlib deflate算法使用后缀数组来查找重复的子字符串。在任何一种情况下,算法都不是直截了当的,需要相当多的研究来理解和有效实施。
如果你只是担心程序员的工作效率和易于理解的代码,我想你很难打败你写的东西。假设一个相当智能的正则表达式解析器,它可能足够快以便正常使用。