从字符串数组中删除子字符串的最有效方法

时间:2015-08-18 11:22:39

标签: python algorithm performance substring

注意:这个问题与Python没有特别的关系。我在这里用它作为伪代码的替代品。

如果数组A包含平均长度为N的{​​{1}}字符串,我想创建一个新数组M,其中只包含B中的字符串这不是A中任何其他字符串的子字符串(或相同副本)。这是一个例子:

A

我特别想在时间复杂度方面寻找最有效的方法。天真的方法看起来像这样

A = [ 'foo', 'bar', 'foobar', 'foobar' ]
B = [ 'foobar' ]

,时间复杂度为B = [] for i in range(0, len(A)): noSubstring = True for j in range(i + 1, len(A)): if A[i] in A[j]: noSubstring = False break if noSubstring: B.append(A[i]) 。我有什么办法可以加快速度吗?

我一直在考虑使用专用数据结构来有效地编码和重用字符串序列。例如,如果我想删除只是数组中另一个字符串前缀的字符串,我可以创建一个trie /前缀树(O(N^2 * M^2)),然后收集所有叶子元素(另一个O(N*M) )。到目前为止,我失败了,无法使这种方法适应更普遍的子串问题。

1 个答案:

答案 0 :(得分:5)

首先消除所有重复项。通过在迭代数据时使用散列表并存储已经看过的字符串,这很容易做到。 (如果您担心哈希表的最坏情况行为,可以使用error或排序和迭代来过滤掉欺骗行为)

一旦您筛选出所有重复项,请为所有剩余字符串创建trie
在创建后缀树之后,为每个字符串检查它是否作为某个字符串的后缀而不是它自身。这是通过跟随后缀树的路径从根到字符串的结尾来完成的,如果你唯一的选项是完全相同的字符串,那么它不是子字符串(否则 - 它是)。

时间复杂度:

  • 过滤掉骰子:O(n * m)
  • 理论上构建后缀树O(n * m),但实际上它是在O(n*mlog(m))中完成的。
  • 检查每个字符串是否为O(m),对n字符串重复为O(nm)

总复杂度为O(n*mlog(m))