Question

我有一系列谜题：莫尔斯电码字符串，字母或单词之间没有空格。我的计划是进行字典攻击以找到最佳候选解决方案。我的武器是Python。

我有17000个英文单词列表。我还有一个与拼图主题相关的小得多的单词列表，如果这些单词显示出来，它们应该得分更高。

因此，在生成单词列表时，在脚本的最开始，我使用了表单元组列表（word，scoremultiplier）。这是一小部分：

[('zoned', 1.0), 
 ('zonely', 1.0), 
 ('zoner', 1.0), 
 ('zones', 1.0), 
 ('zoning', 1.0), 
 ('zoo', 1.0), 
 ('zoom', 1.0), 
 ('zoomed', 1.0), 
 ('zooming', 1.0), 
 ('zooms', 1.0), 
 ('zoos', 1.0), 
 ('ten', 1.0), 
 ('tens', 1.0), 
 ('gnash', 1.0), 
 ('shag', 1.0), 
 ('75th', 2.0), 
 ('seventy', 2.0), 
 ('fifth', 2.0)]

在我解析所有内容的文件中，我想在最后粘贴高价值的单词，而不是手动删除文件主要部分中的任何重复项。所以我需要写一些东西来摆脱早期的元组，它的第一个值等于后来的元组。

我可以用暴力来做到这一点：

for firstkey, (firstword, firstfactor) in enumerate(wordlist):
    for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
        if firstword == laterword:
            del wordlist[firstkey]
            break

但是这部分剧本只需要45秒，而我的17000字甚至不是一本完整的字典。（除了完成所需的时间之外，该代码也未经过测试，因此它甚至可能无法正常工作。）它似乎也非常非Pythony，尽管我现在正在学习Python（并且完成了我的第一次编程）有了这个项目。

有更好的方法吗？我不能使用set()，因为重复的单词是不等元组的一部分。我需要以某种方式重构我的数据吗？或者我应该准备好每次运行时都等一整分钟？

Answer 1

我可能会误解这个问题，但看起来您可以从元组列表中生成dict。以后的值将自动覆盖之前的值：

lst = [
    ('foo', 1),
    ('bar', 2),
    ('foo', 10)
]

print dict(lst) # {'foo': 10, 'bar': 2}

从列表中消除半重复项的高性能方法

1 个答案: