如何找到多个字符串中最长的公共子字符串?

时间:2016-11-11 21:29:06

标签: python string

我正在写一个python脚本,我有多个字符串。

例如:

x = "brownasdfoersjumps"
y = "foxsxzxasis12sa[[#brown"
z = "thissasbrownxc-34a@s;"

在所有这三个字符串中,它们有一个共同的子字符串brown。我想以我想要创建字典的方式搜索它:

dict = {[commonly occuring substring] => 
           [total number of occurrences in the strings provided]}

这样做的最佳方法是什么?考虑到每次我将拥有超过200个字符串,这将是一种简单/有效的方法吗?

1 个答案:

答案 0 :(得分:2)

这是一种相对优化的天真算法。首先将每个序列转换为一组所有的ngrams。然后你交叉所有集合并找到交叉点中最长的ngram。

from functools import partial, reduce
from itertools import chain
from typing import Iterator


def ngram(seq: str, n: int) -> Iterator[str]:
    return (seq[i: i+n] for i in range(0, len(seq)-n+1))


def allngram(seq: str) -> set:
    lengths = range(len(seq))
    ngrams = map(partial(ngram, seq), lengths)
    return set(chain.from_iterable(ngrams))


sequences = ["brownasdfoersjumps",
             "foxsxzxasis12sa[[#brown",
             "thissasbrownxc-34a@s;"]

seqs_ngrams = map(allngram, sequences)
intersection = reduce(set.intersection, seqs_ngrams)
longest = max(intersection, key=len) # -> brown

虽然这可能会让您通过短序列,但这种算法在长序列上效率极低。如果序列很长,可以添加一个启发式来限制最大可能的ngram长度(即最长的公共子串)。这种启发式的一个明显价值可能是最短序列的长度。

def allngram(seq: str, minn=1, maxn=None) -> Iterator[str]:
    lengths = range(minn, maxn) if maxn else range(minn, len(seq))
    ngrams = map(partial(ngram, seq), lengths)
    return set(chain.from_iterable(ngrams))


sequences = ["brownasdfoersjumps",
             "foxsxzxasis12sa[[#brown",
             "thissasbrownxc-34a@s;"]

maxn = min(map(len, sequences))
seqs_ngrams = map(partial(allngram, maxn=maxn), sequences)
intersection = reduce(set.intersection, seqs_ngrams)
longest = max(intersection, key=len)  # -> brown

这可能还需要很长时间(或者让你的机器耗尽RAM),所以你可能想了解一些最佳算法(请参阅我在你的问题评论中留下的链接)。

更新

计算每个ngram发生的字符串数

from collections import Counter
sequences = ["brownasdfoersjumps",
             "foxsxzxasis12sa[[#brown",
             "thissasbrownxc-34a@s;"]

seqs_ngrams = map(allngram, sequences)
counts = Counter(chain.from_iterable(seqs_ngrams))

Counterdict的子类,因此其实例具有类似的接口:

print(counts)
Counter({'#': 1,
         '#b': 1,
         '#br': 1,
         '#bro': 1,
         '#brow': 1,
         '#brown': 1,
         '-': 1,
         '-3': 1,
         '-34': 1,
         '-34a': 1,
         '-34a@': 1,
         '-34a@s': 1,
         '-34a@s;': 1,
         ...

您可以过滤计数,以便在至少n个字符串中保留子字符串:{string: count for string, count in counts.items() if count >= n}