算法:识别跨树级的重复子集

时间:2013-10-08 00:26:59

标签: java algorithm tree

说我有以下内容:

   _____W_____
  |     |     |
 _T_   _L_   _X_
|   | |   | |   |
A   B A   B A   B

如您所见,它是一个标准树(不是二叉树,W有三个孩子的事实证明了这一点)。我的目标是确定A B子序列在整个底层重复的事实。

更一般地说,我希望能够从树的根开始,查看我孩子的子树集(孙子树子集,基本上),并确定它们是否一直相同跨越树级,然后递归到我的孩子,并在每个较小的范围内做同样的事情。冲洗,重复,一直到整个树的底部。

我想到的一个简单的解决方案是对每个子树进行广度优先(或深度优先)遍历(在本例中为TL,和X)并比较我提出的词(减去第一个字符)。在这种情况下,广度优先遍历将产生TABLABXAB,并忽略第一个字符,我会看到它们全部AB 。但想象一下,如果树是以下的:

   _____W_____
  |     |     |
 _T_   _L_   _X_
|   | |   | |   |
A   B Q   B A   B

能够抓住第一个A然后Q,意识到它们不一样并且继续搜索没有意义,并且简短,效率会高得多 - 离开。

我主要想看看是否有一些"显而易见的"可以在这里应用的算法,或者,也许是为这个特定问题创建的算法;我从未见过,找不到,和/或不知道如何搜索。

(我还用" Java"标记标记了这个问题,仅仅因为我实际实现了这个树结构[和我应用的其他算法并且关于]的未解答的问题恰好是那种语言。我也可以翻译伪代码。)

修改 - 这可能比上面第一个树上的一些示例步骤更有意义:

  • W(根)开始。
  • 我有2个或更多孩子吗?在这种情况下,是的,3:TLX
  • 比较TLX的子子树。
  • 整个级别处的TLX子子树组是否相同W的范围?在这种情况下,是的,它一直是A B。在上面的第二个树中,答案是否定的,因为Q使事情变得混乱。
  • 现在下拉到W个孩子,TLX。重复上面的步骤。 T有2个或更多孩子吗?是的,AB。他们有孩子吗?在上面的例子中,没有,所以没有其他事可做。但是想象AB是整个子树,有子女,孙子等等。现在的问题是:这些子树在整个级别上是否相同T的范围A son of T的子子树集与B son of T的子子树集相同吗?

1 个答案:

答案 0 :(得分:1)

注意:声明短路您的等式检查比枚举策略需要测试“更有效”。如果您的输入集不是很大,那么它不太可能产生影响,如果 ,那么您可能需要使用代表性数据进行测量。

也就是说,这是一个算法的伪代码,它在所有子树中从左到右进行比较,试图一次一个地查看树中的元素,而不是在前面生成所有设置:

function AllLeavesEqual(tree):
  if (tree.children.size < 2):
    return true
  subtreeIterators = [GetLeafIterator(t) for subtree in tree.children]
  baseLeaves = subtreeIterators[0]
  comparisonLeaves = subtreeIterators[1:]
  pop one item off of each iterator
  while (baseLeaves.hasNext()):
    nextLeaf = baseLeaves.next()
    for comparisonIterator in comparisonLeaves:
      if (!comparisonIterator.hasNext() or comparisonIterator.next() != nextLeaf):
        return false

  return true iff no iterator in comparisonLeaves satisfies iterator.hasNext()

function GetLabelIterator(tree):
  return Iterator:
    stack = Stack(tree)

    define next():
      t = Pop(stack)
      push each of t.children onto stack in reverse order
      return t.label

    define isEmpty():
      return stack.isEmpty()

我在这里做的只是检查每个子树中的每个标签是否相等,其中的诀窍是,不是实现标签集,而是使用迭代器,它有效地执行每个子树的前序遍历遍历。你当然可以使用你想要的任何其他懒惰树节点枚举方法。

注意两件事:首先,这个遍历不是你想要的水平顺序遍历。这是一个前序遍历;如果使用level-order遍历真的很重要,那么你需要用一个枚举那种方式的迭代器替换我上面写的迭代器。其次,如所描述的,该算法不检查结构相等性,只检查有序遍历相等性。如果重要的话,这很容易解决。