我编写了这些函数(可以工作)来查找两个字符串中最长的公共子序列。
def lcs_grid(xs, ys):
grid = defaultdict(lambda: defaultdict(lambda: (0,"")))
for i,x in enumerate(xs):
for j,y in enumerate(ys):
if x == y:
grid[i][j] = (grid[i-1][j-1][0]+1,'\\')
else:
if grid[i-1][j][0] > grid[i][j-1][0]:
grid[i][j] = (grid[i-1][j][0],'<')
else:
grid[i][j] = (grid[i][j-1][0],'^')
return grid
def lcs(xs,ys):
grid = lcs_grid(xs,ys)
i, j = len(xs) - 1, len(ys) - 1
best = []
length,move = grid[i][j]
while length:
if move == '\\':
best.append(xs[i])
i -= 1
j -= 1
elif move == '^':
j -= 1
elif move == '<':
i -= 1
length,move = grid[i][j]
best.reverse()
return best
是否有人提议修改功能s.t.他们可以打印三个字符串中最长的常见子序列吗?即函数调用将是:lcs(str1, str2, str3)
直到现在,我使用'reduce'语句来管理它,但是我希望有一个函数可以在没有'reduce'语句的情况下打印出子序列。
答案 0 :(得分:6)
要找到D字符串中最长的公共子字符串,您不能简单地使用reduce
,因为3个字符串的最长公共子字符串不必是两者中任何一个的LCS的子字符串。反:
a = "aaabb"
b = "aaajbb"
c = "cccbb"
在该示例中,LCS(a,b)=“aaa”和LCS(a,b,c)=“bb”。如您所见,“bb”不是“aaa”的子串。
在您的情况下,由于您实现了动态编程版本,因此您必须构建D维网格并相应地调整算法。
您可能希望查看后缀树,这样可以加快速度,请参阅Wikipedia。另请查看此stackoverflow question