Question

注意：这个问题与Python没有特别的关系。我在这里用它作为伪代码的替代品。

如果数组A包含平均长度为N的{{1}}字符串，我想创建一个新数组M，其中只包含B中的字符串这不是A中任何其他字符串的子字符串（或相同副本）。这是一个例子：

我特别想在时间复杂度方面寻找最有效的方法。天真的方法看起来像这样

A = [ 'foo', 'bar', 'foobar', 'foobar' ]
B = [ 'foobar' ]

，时间复杂度为B = [] for i in range(0, len(A)): noSubstring = True for j in range(i + 1, len(A)): if A[i] in A[j]: noSubstring = False break if noSubstring: B.append(A[i])。我有什么办法可以加快速度吗？

我一直在考虑使用专用数据结构来有效地编码和重用字符串序列。例如，如果我想删除只是数组中另一个字符串前缀的字符串，我可以创建一个trie /前缀树（O(N^2 * M^2)），然后收集所有叶子元素（另一个O(N*M) ）。到目前为止，我失败了，无法使这种方法适应更普遍的子串问题。

Answer 1

首先消除所有重复项。通过在迭代数据时使用散列表并存储已经看过的字符串，这很容易做到。（如果您担心哈希表的最坏情况行为，可以使用error或排序和迭代来过滤掉欺骗行为）

一旦您筛选出所有重复项，请为所有剩余字符串创建trie。
在创建后缀树之后，为每个字符串检查它是否作为某个字符串的后缀而不是它自身。这是通过跟随后缀树的路径从根到字符串的结尾来完成的，如果你唯一的选项是完全相同的字符串，那么它不是子字符串（否则 - 它是）。

时间复杂度：

过滤掉骰子：O（n * m）
理论上构建后缀树O（n * m），但实际上它是在O(n*mlog(m))中完成的。
检查每个字符串是否为O（m），对n字符串重复为O（nm）

总复杂度为O(n*mlog(m))

从字符串数组中删除子字符串的最有效方法

1 个答案: