注意:这个问题与Python没有特别的关系。我在这里用它作为伪代码的替代品。
如果数组A
包含平均长度为N
的{{1}}字符串,我想创建一个新数组M
,其中只包含B
中的字符串这不是A
中任何其他字符串的子字符串(或相同副本)。这是一个例子:
A
我特别想在时间复杂度方面寻找最有效的方法。天真的方法看起来像这样
A = [ 'foo', 'bar', 'foobar', 'foobar' ]
B = [ 'foobar' ]
,时间复杂度为B = []
for i in range(0, len(A)):
noSubstring = True
for j in range(i + 1, len(A)):
if A[i] in A[j]:
noSubstring = False
break
if noSubstring:
B.append(A[i])
。我有什么办法可以加快速度吗?
我一直在考虑使用专用数据结构来有效地编码和重用字符串序列。例如,如果我想删除只是数组中另一个字符串前缀的字符串,我可以创建一个trie /前缀树(O(N^2 * M^2)
),然后收集所有叶子元素(另一个O(N*M)
)。到目前为止,我失败了,无法使这种方法适应更普遍的子串问题。
答案 0 :(得分:5)
首先消除所有重复项。通过在迭代数据时使用散列表并存储已经看过的字符串,这很容易做到。 (如果您担心哈希表的最坏情况行为,可以使用error或排序和迭代来过滤掉欺骗行为)
一旦您筛选出所有重复项,请为所有剩余字符串创建trie。
在创建后缀树之后,为每个字符串检查它是否作为某个字符串的后缀而不是它自身。这是通过跟随后缀树的路径从根到字符串的结尾来完成的,如果你唯一的选项是完全相同的字符串,那么它不是子字符串(否则 - 它是)。
时间复杂度:
O(n*mlog(m))
中完成的。n
字符串重复为O(nm)总复杂度为O(n*mlog(m))