PYTHON-给出一个起始单词,哪个字母序列将允许您最大化可拼写的有效单词的数量

时间:2011-08-12 08:28:28

标签: python algorithm trie

编辑:新问题。鉴于我怀疑这个问题比我原先想象的更困难 - 可能是NP复杂的,我有一个不同的问题:什么是有用的算法可以接近最大化使用的字母数?

我受到启发,写了一个基于卡片游戏Scrabble Slam的程序!然而,我是算法的新手,并且想不出解决这个问题的有效方法:

首先是一个包含英文有效4个字母单词的字符串。您可以一次在该单词上放置一个字母,以便通过放置该单词形成一个新的字典有效单词。你拥有的字母等于字母表中的字母。

例如,如果起始单词是“cart”,则这可能是有效的移动序列:

sand - >理智 - >正弦 - > line - > lins - >引脚 - >鳍等。

目标是通过使用尽可能多的字母表来最大化序列中的单词数量(不使用多于一次的字母)。

我的算法无法找到最长的序列,只能猜测最长的序列。

首先,它获取可以通过更改起始单词的一个字母形成的所有单词的列表。该列表称为“adjacentList”。然后,它会查看adjacentList中的所有单词,并查找哪些单词具有最相邻的单词。无论哪个单词具有最相邻的单词,它都会选择将起始单词转换为。

例如,单词sane可以转换成28个其他单词,单词sine可以变成27个其他单词,单词行可以变成30个其他单词 - 这些选择中的每一个都是为了最大化可能拼写越来越多的单词。

解决这个问题的最佳方法是什么?什么样的数据结构是最佳的?如何改进我的代码以使其更高效,更简洁?

##Returns a list of all adjacent words.  Lists contain tuples of the adjacent word and the letter that
##makes the difference between those two words.

def adjacentWords(userWord):
    adjacentList, exactMatches, wrongMatches = list(), list(), str()
    for dictWords in allWords:
        for a,b in zip(userWord, dictWords):
            if a==b: exactMatches.append(a)
            else: wrongMatches = b
        if len(exactMatches) == 3:
            adjacentList.append((dictWords, wrongMatches))
        exactMatches, wrongMatches = list(), list()
    return adjacentList
    #return [dictWords for dictWords in allWords if len([0 for a,b in zip(userWord, dictWords) if a==b]) == 3]


def adjacentLength(content):
    return (len(adjacentWords(content[0])), content[0], content[1])

#Find a word that can be turned into the most other words by changing one letter
def maxLength(adjacentList, startingLetters):
    return max(adjacentLength(content) for content in adjacentList if content[1] in startingLetters)

def main():
    startingWord = "sand"
    startingLetters = "a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z".replace(" ", "").split(',')

    existingWords = list()
    while True:
        adjacentList = adjacentWords(startingWord)
        letterChoice = maxLength(adjacentList, startingLetters)
        if letterChoice[1] not in existingWords:
            print "Going to use letter: "+ str(letterChoice[2]) + " to spell the word "+ str(letterChoice[1]) + " with "+ str(letterChoice[0]) + " possibilities."
            existingWords.append(letterChoice[1])
            startingLetters.remove(str(letterChoice[2]))
            startingWord = letterChoice[1]


main()

2 个答案:

答案 0 :(得分:3)

@Parseltongue 您可能会发现,尽管有一个针对给定任务的最佳解决方案,但是没有已知的方法以最佳方式解决它。此任务是NP-class问题之一。

考虑一下:

sand --> [?]and 

此时,您必须遍历[?]and的所有可能组合,以找出符合条件的单词。在最坏的情况下,没有启发式,那就是26次迭代。

sand --> band, hand, land, wand

现在,取出每个找到的单词并迭代第二个字母等 您可以看到,您必须进行的迭代量呈指数级增长。

这在某种程度上非常类似于国际象棋的问题。无论您的计算机有多强大,它都无法预测所有可能的动作,因为组合太多了。

答案 1 :(得分:0)

我和一位朋友实际上在数据结构和算法课程的实验室中开发了一个类似的程序(在Java中)。任务是从一个单词到另一个单词创建最短的单词链。

我们建立了一个包含所有可用单词的树,其中一个节点连接到另一个节点,如果它们仅相差一个字母。速度需要使用某种哈希表,例如字典。我们实际上从我们用作键的单词中删除了一个字母,从而利用了连接词然后具有相同哈希的事实,但是如果没有代码则很难解释。

为了找到最短的链,我们只使用了广度优先搜索。但是,在图表中找到最短路径比最长路径更容易。有关详细信息,请参阅longest path problem

要解决主要问题,您可以遍历所有单词。但是,如果速度很重要,那么通常更容易尝试找到一个好的特殊启发式算法。