用Trie在单词列表中查找复合词

时间:2016-11-06 04:02:11

标签: python algorithm trie

给出一个单词列表,我试图弄清楚如何在列表中找到由列表中的其他单词组成的单词。例如,如果列表为TypeError,我想返回["race", "racecar", "car"]

这是我的一般思考过程。我知道使用trie会对这类问题有所帮助。对于每个单词,我可以使用trie找到它的所有前缀(也是列表中的单词)。然后,对于每个前缀,我可以检查单词的后缀是否由trie中的一个或多个单词组成。但是,我很难实现这一点。我已经能够实现trie和函数来获取单词的所有前缀。我只是坚持实施复合词检测。

1 个答案:

答案 0 :(得分:1)

您可以将Trie节点显示为defaultdict个对象,这些对象已扩展为包含一个布尔标志,标记前缀是否为单词。然后你可以进行两次传递处理,在第一轮中你将所有单词添加到Trie,在第二轮中检查每个单词是否是一个组合:

from collections import defaultdict

class Node(defaultdict):
    def __init__(self):
        super().__init__(Node)
        self.terminal = False

class Trie():
    def __init__(self, it):
        self.root = Node()
        for word in it:
            self.add_word(word)

    def __contains__(self, word):
        node = self.root
        for c in word:
            node = node.get(c)
            if node is None:
                return False

        return node.terminal

    def add_word(self, word):
        node = self.root
        for c in word:
            node = node[c]

        node.terminal = True

    def is_combination(self, word):
        node = self.root
        for i, c in enumerate(word):
            node = node.get(c)
            if not node:
                break
            # If prefix is a word check if suffix can be found
            if node.terminal and word[i+1:] in self:
                return True

        return False

lst = ["race", "racecar", "car"]
t = Trie(lst)

print([w for w in lst if t.is_combination(w)])

输出:

['racecar']