高效计算序列之间的重叠

时间:2021-01-28 23:33:34

标签: python sequence overlap python-3.9

给定两个序列s1s2s1s2超序列是另一个长度小于两个序列之和的序列s1s2 的长度并包含它们。例如,对于 s1=[1,2,4,4]s2=[4,4,9,7],超序列可能是 [1,2,4,4,9,7],也可能是 [1,2,4,4,4,9,7]

我试图找到一个函数 f 的有效实现,它的输入是两个序列 s1s2,它执行以下操作:首先,计算可能的超序列的数量和然后返回发生重叠的位置(为简单起见,我们假设 s1 总是首先出现在超序列中)。

例如,以前面的示例为例,f([1,2,4,4], [4,4,9,7]) 应返回 23,即第二个序列在两个现有超序列中开始的索引。

2 个答案:

答案 0 :(得分:1)

您可以通过基于左侧列表的枚举的列表理解来获取潜在的重叠位置。

idx = [ i for i,v1 in enumerate(s1) if v1==s2[0] ]

# [2, 3]

但是,我建议使用递归生成器来生成所有超序列的不同总体策略。

def superpose(s1,s2,inverted=False):
    if s1 and not inverted and s1[0] in s2:
        yield from superpose(s2,s1,True)
    if not s2: return
    if inverted and s2[0] not in s1:
        yield s1+s2;return
    for i,v1 in enumerate(s1):
        if v1 != s2[0]: continue
        yield from (s1[:i+1] + sp for sp in superpose(s1[i+1:],s2[1:],True))

输出:

s1=[1,2,4,4]
s2=[4,4,9,7]

for sp in superpose(s1,s2): print(sp)

[1, 2, 4, 4, 9, 7]
[1, 2, 4, 4, 4, 9, 7]

for sp in superpose(s2,s1): print(sp) # insensitive to parameter order

[1, 2, 4, 4, 9, 7]
[1, 2, 4, 4, 4, 9, 7]

s1 = [1,2,3]
s2 = [2,4,1,6,2]
for sp in superpose(s1,s2): print(sp)

[1, 2, 3, 4, 1, 6, 2]
[2, 4, 1, 6, 2, 3]

如果您需要找到最短的,可以轻松地将生成器馈送到 min 函数:

min(superpose(s1,s2),key=len)    

[1, 2, 4, 4, 9, 7]

答案 1 :(得分:0)

我想不出比这更简单的解决方案:

def f(s1, s2):
    indexes = []
    for i in range(len(s1)):
        seq_len = len(s1) - I
        if seq_len < len(s2) and s1[i:] == s2[:seq_len]:
            indexes.append(i)
    return indexes
        

单线,如果你喜欢生活在边缘:

indexes = [i for i in range(len(s1)) if len(s1)-i>len(s2) and s1[i:]==s2[:len(s1)-i]]