三个字符串的最长公共子序列

时间:2012-05-24 22:39:47

标签: python

我编写了这些函数(可以工作)来查找两个字符串中最长的公共子序列。

def lcs_grid(xs, ys):
    grid = defaultdict(lambda: defaultdict(lambda: (0,"")))
    for i,x in enumerate(xs):
        for j,y in enumerate(ys):
            if x == y:
                grid[i][j] = (grid[i-1][j-1][0]+1,'\\')
            else:
                if grid[i-1][j][0] > grid[i][j-1][0]:
                    grid[i][j] = (grid[i-1][j][0],'<')
                else:
                    grid[i][j] = (grid[i][j-1][0],'^')

    return grid

def lcs(xs,ys):
    grid = lcs_grid(xs,ys)
    i, j = len(xs) - 1, len(ys) - 1

    best = []
    length,move = grid[i][j]
    while length:
        if move == '\\':
            best.append(xs[i])
            i -= 1
            j -= 1
        elif move == '^':
            j -= 1
        elif move == '<':
            i -= 1
        length,move = grid[i][j]

    best.reverse()
    return best

是否有人提议修改功能s.t.他们可以打印三个字符串中最长的常见子序列吗?即函数调用将是:lcs(str1, str2, str3)

直到现在,我使用'reduce'语句来管理它,但是我希望有一个函数可以在没有'reduce'语句的情况下打印出子序列。

1 个答案:

答案 0 :(得分:6)

要找到D字符串中最长的公共子字符串,您不能简单地使用reduce,因为3个字符串的最长公共子字符串不必是两者中任何一个的LCS的子字符串。反:

a = "aaabb"
b = "aaajbb"
c = "cccbb"

在该示例中,LCS(a,b)=“aaa”和LCS(a,b,c)=“bb”。如您所见,“bb”不是“aaa”的子串。

在您的情况下,由于您实现了动态编程版本,因此您必须构建D维网格并相应地调整算法。

您可能希望查看后缀树,这样可以加快速度,请参阅Wikipedia。另请查看此stackoverflow question