我有一系列谜题:莫尔斯电码字符串,字母或单词之间没有空格。我的计划是进行字典攻击以找到最佳候选解决方案。我的武器是Python。
我有17000个英文单词列表。我还有一个与拼图主题相关的小得多的单词列表,如果这些单词显示出来,它们应该得分更高。
因此,在生成单词列表时,在脚本的最开始,我使用了表单元组列表(word,scoremultiplier)。这是一小部分:
[('zoned', 1.0),
('zonely', 1.0),
('zoner', 1.0),
('zones', 1.0),
('zoning', 1.0),
('zoo', 1.0),
('zoom', 1.0),
('zoomed', 1.0),
('zooming', 1.0),
('zooms', 1.0),
('zoos', 1.0),
('ten', 1.0),
('tens', 1.0),
('gnash', 1.0),
('shag', 1.0),
('75th', 2.0),
('seventy', 2.0),
('fifth', 2.0)]
在我解析所有内容的文件中,我想在最后粘贴高价值的单词,而不是手动删除文件主要部分中的任何重复项。所以我需要写一些东西来摆脱早期的元组,它的第一个值等于后来的元组。
我可以用暴力来做到这一点:
for firstkey, (firstword, firstfactor) in enumerate(wordlist):
for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
if firstword == laterword:
del wordlist[firstkey]
break
但是这部分剧本只需要45秒,而我的17000字甚至不是一本完整的字典。 (除了完成所需的时间之外,该代码也未经过测试,因此它甚至可能无法正常工作。)它似乎也非常非Pythony,尽管我现在正在学习Python(并且完成了我的第一次编程)有了这个项目。
有更好的方法吗?我不能使用set()
,因为重复的单词是不等元组的一部分。我需要以某种方式重构我的数据吗?或者我应该准备好每次运行时都等一整分钟?
答案 0 :(得分:3)
我可能会误解这个问题,但看起来您可以从元组列表中生成dict
。以后的值将自动覆盖之前的值:
lst = [
('foo', 1),
('bar', 2),
('foo', 10)
]
print dict(lst) # {'foo': 10, 'bar': 2}