我正在尝试编写一个hangman算法。我的想法是这样的:
示例:
#Each key corresponds to length of the word.
frequencyDict = {2: ['a', 'o', 'e', 'i', 'm', 'h', 'n', 'u', 's', 't', 'y', 'b', 'd', 'l', 'p', 'x', 'f', 'r', 'w', 'g', 'k', 'j'],
3: ['a', 'e', 'o', 'i', 't', 's', 'u', 'p', 'r', 'n', 'd', 'b', 'm', 'g', 'y', 'l', 'h', 'w', 'f', 'c', 'k', 'x', 'v', 'j', 'z', 'q'],
4: ['e', 'a', 's', 'o', 'i', 'l', 'r', 't', 'n', 'u', 'd', 'p', 'm', 'h', 'b', 'c', 'g', 'k', 'y', 'f', 'w', 'v', 'j', 'z', 'x', 'q'],
5: ['s', 'e', 'a', 'o', 'r', 'i', 'l', 't', 'n', 'd', 'u', 'c', 'p', 'y', 'm', 'h', 'g', 'b', 'k', 'f', 'w', 'v', 'z', 'x', 'j', 'q'],
6: ['e', 's', 'a', 'r', 'i', 'o', 'l', 'n', 't', 'd', 'u', 'c', 'p', 'm', 'g', 'h', 'b', 'y', 'f', 'k', 'w', 'v', 'z', 'x', 'j', 'q'],
7: ['e', 's', 'a', 'i', 'r', 'n', 'o', 't', 'l', 'd', 'u', 'c', 'g', 'p', 'm', 'h', 'b', 'y', 'f', 'k', 'w', 'v', 'z', 'x', 'j', 'q'],
8: ['e', 's', 'i', 'a', 'r', 'n', 'o', 't', 'l', 'd', 'c', 'u', 'g', 'p', 'm', 'h', 'b', 'y', 'f', 'k', 'w', 'v', 'z', 'x', 'q', 'j']}
我在字典中也有一个单词生成器:
dictionary = word_reader('C:\\Python27\\dictionary.txt', len(letters))
基于此功能
#Strips dictionary of words that are too big or too small from the list
def word_reader(filename, L):
L2 = L+2
return (word.strip() for word in open(filename) \
if len(word) < L2 and len(word) > 2)
p = re.compile('^e\D\D\D\De\D$', re.IGNORECASE)
会这样做,但它可能会找到单词
在第一个字母和倒数第二个字母之外的其他地方包含'e'。
所以我的第一个问题是:
例如,如果单词是monkey,那么计算机就会被给出---- e- 第一步是从字典中删除所有不是6个字母的单词,以及所有不完全符合'---- e-'模板并将其放在newList中的单词。 怎么做 我这样做了吗?
然后根据其中的单词的相对频率计算一个新的frequencyDict newList。
我目前的做法是这样的:
cnt = Counter()
for words in dictionary:
for letters in words:
cnt[letters]+=1
这是最有效的方式吗?
然后它将使用newfrequencyDict猜测最常见的字母,假设它有 还没有被猜到。它继续这样做,直到(希望)这个词被猜到。
这是一种有效的算法吗?是否有更好的实施?
答案 0 :(得分:3)
这是很多问题。我会尝试回答一些问题。
^e[^e][^e][^e][^e]e[^e]$
'。那些[^e]
位说“匹配任何不是'e'的字符。请注意,与正则表达式不同,这个将 mach非字母字符,但如果你不应该是一个问题确保你的字典只有字母。请注意,一旦你发现了多个字母,你就会将所有字母放入每个“不匹配”部分。例如,假设'a'被猜到了,所以它是“ea --- e-”,现在你将匹配正则表达式“^ea[^ae][^ae][^ae]e[^ae]$
”。{'a', 'e'}
),b)将该集合展平为“匹配所有但是这个”正则表达式片段([^ae]
) - 请注意,顺序并不重要,这就是为什么我使用了一个集合,c)用其中一个(ea[^ae][^ae][^ae]e[^ae]
)替换每个连字符,并且d)最后只是放了一个前面是“^
”,最后是“$
”。答案 1 :(得分:2)
关于正则表达式并没有什么特别神奇之处,并且将它们与整个字典相匹配仍然需要花费O(n)时间。我建议你编写自己的函数,确定一个单词是否与模板匹配,并运行你的字典 - 远远不够。
这是一个示例函数:
def matches_template(word, template):
found_chars = set(x for x in template if x != '-')
for char, template_char in zip(word, template):
if template_char == '-':
if char in found_chars: return False
else:
if template_char != char: return False
return True
至于确定要猜测的下一个字符,您可能不希望选择最常用的字符。相反,你想要选择最接近50%单词的字符,这意味着无论哪种方式都消除了最多的可能性。即使这不是最佳的 - 可能是某些字符更有可能在单词中出现两次,因此消除了更大比例的候选人 - 但它更接近。